DE112018001290T5

DE112018001290T5 - Verfahren zum Schätzen der Löschbarkeit von Datenobjekten

Info

Publication number: DE112018001290T5
Application number: DE112018001290.5T
Authority: DE
Inventors: Sebastian Goeser
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-05-24
Filing date: 2018-05-21
Publication date: 2020-01-02
Also published as: US10956453B2; US20180341695A1; GB2576453A; JP2020522782A; GB201916870D0; CN110679114A; WO2018215912A1; CN110679114B; JP7038143B2

Abstract

Ein Verfahren, ein Computersystem und ein Computerprogrammprodukt zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern wird bereitgestellt. Die vorliegende Erfindung kann das Bereitstellen von Datenobjekt-Eigenschaften und Benutzereigenschaften des Satzes von Datenobjekten beinhalten. Die vorliegende Erfindung kann das Feststellen einer kombinierten Eigenschaft der Datenobjekt-Eigenschaften und der Benutzereigenschaften beinhalten. Die vorliegende Erfindung kann das Feststellen von zeitabhängigen Eigenschaften und das Bestimmen von mindestens zwei Metriken beinhalten, wobei eine erste Metrik die Löschbarkeit eines Clusters angibt und eine zweite Metrik die Qualität des Clusters angibt und wobei die erste Metrik unter Verwendung von zeitabhängigen Eigenschaften des Clusters bestimmt wird. Die vorliegende Erfindung kann das Eingeben des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus und das Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen, beinhalten, um ein am besten löschbares Cluster zu ermitteln, um festzustellen, ob ein Datenobjekt löschbar ist.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft das Gebiet der digitalen Computersysteme und insbesondere ein Verfahren zur Verarbeitung eines Satzes von Datenobjekten von einem oder mehreren Benutzern.
Unternehmen häufen enorme Mengen an Datenobjekten an. Sich dieser nicht mehr geschäftsrelevanten, rechtlich relevanten oder für beliebige andere wichtige Zwecke relevanten Objekte auf eine gerechtfertigte, erklärbare Weise zu entledigen, ist wünschenswert. Alternativ können Datenobjekte für eine lokale Nutzungsgemeinschaft, wie beispielsweise bestimmte rechtliche Dokumente, erhalten werden. Die überwiegende Zahl von allgemein zugänglichen Dokumenten in den heutigen Unternehmen unterliegt einem mehr oder wenigen rigiden, hierarchisch geordneten Aufbewahrungsschema, bei dem beispielsweise die Ausführung, Kontrolle und Bewertung üblicherweise beträchtliche Mitarbeiter- sowie Infrastrukturressourcen erforderlich macht.
KURZDARSTELLUNG
Ausführungsformen der vorliegenden Erfindung offenbaren ein Verfahren, ein Computersystem und ein Computerprogrammprodukt zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern. Die vorliegende Erfindung kann das Bereitstellen von Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten beinhalten. Die vorliegende Erfindung kann auch das Feststellen für jedes Datenobjekt des Satzes von Datenobjekten einer kombinierten Eigenschaft beinhalten, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist. Die vorliegende Erfindung kann dann das Feststellen von zeitabhängigen Eigenschaften des Satzes von Datenobjekten beinhalten, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat. Die vorliegende Erfindung kann des Weiteren das Definieren von mindestens zwei Metriken beinhalten, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird. Die vorliegende Erfindung kann auch das Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus beinhalten. Die vorliegende Erfindung kann dann das Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; das Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist, beinhalten.
Verschiedene Ausführungsformen stellen ein Verfahren zur Verarbeitung eines Satzes von Datenobjekten von einem oder mehreren Benutzern, ein Computersystem und ein Computerprogrammprodukt bereit, die durch den Erfindungsgegenstand der unabhängigen Ansprüche beschrieben sind. Vorteilhafte Ausführungsformen sind in den abhängigen Ansprüchen beschrieben. Ausführungsformen der vorliegenden Erfindung können frei miteinander kombiniert werden, sofern sie sich nicht gegenseitig ausschließen. In einem Aspekt betrifft die Erfindung ein Verfahren zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern. In einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt, das ein durch einen Computer lesbares Speichermedium mit damit realisiertem, durch einen Computer lesbaren Programmcode aufweist, wobei der durch einen Computer lesbare Programmcode so konfiguriert ist, dass er alle Schritte des Verfahrens gemäß vorhergehenden Ausführungsformen durchführt. In einem weiteren Aspekt betrifft die Erfindung ein Computersystem zur Verarbeitung eines in dem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern.
Figurenliste
Diese und weitere Merkmale und Vorteile der vorliegenden Erfindung gehen aus der folgenden ausführlichen Beschreibung von veranschaulichenden Ausführungsformen der Erfindung hervor, die in Verbindung mit den beigefügten Zeichnungen gelesen werden soll. Die verschiedenen Merkmale der Zeichnungen sind nicht maßstabsgetreu, da die Veranschaulichungen dem Fachmann das Verständnis der Erfindung in Verbindung mit der ausführlichen Beschreibung durch Übersichtlichkeit erleichtern sollen. Die folgenden Ausführungsformen der Erfindung werden unter Bezugnahme auf die Zeichnungen beispielhalber ausführlicher erklärt, bei denen:

1 ein computergestütztes System veranschaulicht, das zur Durchführung von einem oder mehreren Verfahrensschritten geeignet ist, die in einer bevorzugten Ausführungsform der vorliegenden Offenbarung eingeschlossen sind.
2 ist ein Ablaufplan eines Verfahrens zur Verarbeitung eines Satzes von Datenobjekten von einem oder mehreren Benutzern gemäß mindestens einer einzelnen Ausführungsform.
3 ist ein Ablaufplan eines beispielhaften Verfahrens zum Schätzen der Löschbarkeit von vorher festgelegten Dateien gemäß mindestens einer einzelnen Ausführungsform.
4 ist ein Ablaufplan eines Verfahrens zum Löschen von Datenobjekten gemäß mindestens einer einzelnen Ausführungsform.

AUSFÜHRLICHE BESCHREIBUNG
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung erfolgen zum Zweck der Veranschaulichung, sollen jedoch nicht erschöpfend oder auf die offenbarten Ausführungsformen beschränkt sein. Viele Änderungen und Varianten sind für den Fachmann erkennbar, ohne vom Umfang und Wesen der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt befindlicher Technologien am besten zu erklären bzw. um anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
Der Begriff „Benutzer“ bezieht sich auf eine Entität, z.B. eine Einzelperson, einen Computer, ein Projekt oder eine auf einem Computer ausgeführte Anwendung. Der Benutzer kann durch ein oder mehrere Attribute definiert werden, welche die Benutzereigenschaften des Benutzers angeben. Die Benutzereigenschaft eines Benutzers kann zum Beispiel der Startzeitpunkt und der Endzeitpunkt des Projekts oder der Startzeitpunkt und der Endzeitpunkt des Kontos des Benutzers in dem Computersystem sein. Der Startzeitpunkt und der Endzeitpunkt des Projekts können zum Beispiel je Datenobjekt des Projekts definiert werden, so dass der Startzeitpunkt und der Endzeitpunkt des Projekts in Bezug auf ein bestimmtes Datenobjekt der Startzeitpunkt und der Endzeitpunkt eines Benutzers ist, der an dem Projekt beteiligt ist und dem das bestimmte Objekt gehört. Zum Beispiel gehört das Datenobjekt nicht mehr zu dem Projekt, wenn der Benutzer das Projekt verlässt, folglich ist der Endzeitpunkt der Zeitpunkt, zu dem der Benutzer das Projekt verlassen hat, und der Startzeitpunkt ist der Zeitpunkt, zu dem der Benutzer das Projekt gestartet hat.
Bei der zweiten Metrik, die auch als eine Qualitätsmetrik bezeichnet wird, kann es sich um eine die Anzahl der Eigenschaftswerte und Datenobjekte eines Clusters beschreibende Metrik handeln. Die zweite Metrik kann zum Beispiel beschreibend sein oder unter Verwendung der Anzahl der einzelnen Eigenschaftswerte oder der Anzahl der verschiedenen Klassen der Eigenschaftswerte definiert werden. Eine Klasse von Eigenschaftswerten einer bestimmten Eigenschaft kann zum Beispiel definiert werden, indem der Bereich der Eigenschaftswerte in Intervalle aufgeteilt wird, wobei die Klasse einem Intervall entspricht (wenn die Eigenschaft z.B. das Alter ist, kann zu den Klassen eine Klasse „mittleres Alter“ gehören). Zum Beispiel kann die zweite Metrik so definiert werden, dass, je höher sie für ein bestimmtes Cluster ist, die Qualität dieses Clusters umso geringer ist. Alternativ ist die Qualität des bestimmten Clusters umso höher, je niedriger die zweite Metrik für ein bestimmtes Cluster ist. Die Qualitätsmetrik wird als ein Mittel zur Verallgemeinerung der gesamten, für alle Datenobjekte vorhandenen Informationen verwendet. Zum Beispiel kann die zweite Metrik eine Kombination aus der Spärlichkeit von Objekteigenschaftswerten und der Anzahl der Datenobjekte, die sie anwendet, sein. Die zweite Metrik kann zum Beispiel so definiert werden, dass, je höher der Wert der zweiten Metrik ist, die Qualität des Clusters umso geringer ist. Zum Beispiel kann die Qualitätsmetrik eines bestimmten Clusters die Anzahl der einzelnen Attributwerte oder Eigenschaftswerte der Datenobjekte des bestimmten Clusters, geteilt durch die Anzahl der Datenobjekte in dem bestimmten Cluster, sein. In einem weiteren Beispiel kann die Qualitätsmetrik eines bestimmten Clusters die Anzahl der Klassen von Attributwerten der Datenobjekte des bestimmten Clusters, geteilt durch die Anzahl der Datenobjekte in dem bestimmten Cluster, sein. Je höher dieses Verhältnis für ein Cluster ist, desto geringer ist zum Beispiel die Qualität dieses Clusters. Die Qualitätsmetrik kann unter Verwendung der Anzahl der Datenobjekte und der Beschreibung eines bestimmten Clusters definiert werden. Die ersten Metriken oder die zweiten Metriken können zum Beispiel normalisiert (z.B. zwischen 0 und 1) werden. Zusätzlich kann zum Beispiel ein Vektor des Satzes von Vektoren ein Array wie beispielsweise ein eindimensionales Array sein.
Die Datenobjekt-Eigenschaft („Objekteigenschaft“) eines Datenobjekts kann Werte enthalten, die ein Hinweis auf das Datenobjekt sind oder das Datenobjekt beschreiben. Die Benutzereigenschaft eines Benutzers kann Werte enthalten, die ein Hinweis auf den Benutzer sind oder den Benutzer beschreiben. In einem Beispiel können zu den Datenobjekt-Eigenschaften eines bestimmten Datenobjekts eine oder mehrere Eigenschaften gehören, die benutzerdefiniert sind (z.B. werden die eine oder die mehreren Eigenschaften von dem Computersystem als Eingaben empfangen). In einem weiteren Beispiel können zu den Benutzereigenschaften eines bestimmten Benutzers eine oder mehrere Eigenschaften gehören, die benutzerdefiniert sind (z.B. werden die eine oder die mehreren Eigenschaften des bestimmten Benutzers von dem Computersystem als Eingaben empfangen).
Der Clustering-Algorithmus, verglichen mit dem Pseudocode des nachstehenden Clustering-Algorithmus, ist so konfiguriert, dass er unter Verwendung des Euklidischen Abstands zwischen Datenobjekten oder zwischen Clustern Cluster bildet und die Cluster beruhend auf den Werten der Metriken einstuft, um das am besten löschbare Cluster zu finden. Der Clustering-Algorithmus kann eine statistische Datenanalyse wie beispielsweise Maschinelles Lernen (machine learning) und Mustererkennung einschließen. Der Clustering-Algorithmus kann eine Machine-Learning-Technik verwenden. Die Machine-Learning-Technik kann so konfiguriert werden, dass sie ein optimales Ergebnis (z.B. ein löschbares Cluster) ermittelt, indem sie die Werte der Metriken beachtet. Die Machine-Learning-Techniken können DateiMetadaten, Speicherdaten oder Organisationsdaten verwenden, wobei die Letzteren den Governance-Kontext eines Datenobjekts beschreiben. Der Clustering-Algorithmus kann als ein Optimierungsproblem mit mehreren Zielfunktionen formuliert werden, das mindestens zwei Zielfunktionen einschließt, damit die beiden Metriken gleichzeitig optimiert werden können. Zum Beispiel können die Zielfunktionen darin bestehen, die beiden Metriken zu maximieren (z.B. maximiere die Löschbarkeit und maximiere die Qualität des Clusters).
Der Clustering-Algorithmus kann eine Schätzfunktion für die Wahrscheinlichkeit, dass ein Datenobjekt löschbar ist oder erhalten werden muss, bereitstellen. Diese Funktion kann als eine Erhaltbarkeitsfunktion bezeichnet werden. Das vorliegende Verfahren kann inhärent probabilistisch sein, da es eine Schätzung für die Wahrscheinlichkeit, dass ein Datenobjekt erhalten oder gelöscht werden sollte, vorsieht. Eine Minimierung der Fehlerwahrscheinlichkeit, die einer jeden solchen Schätzung innewohnt, kann durch die Verwendung von sehr großen Lernmustern (z.B. Teil des Vektorsatzes) erreicht werden. Die Erhaltbarkeit kann von einer Richtlinien-Governance abhängen, wobei eine Richtlinie ein deontisches Objekt ist, dessen Anwendung in einer hierarchisch geordneten Weise darauf abzielt, Zielobjekte in einen bestimmten Zustand zu versetzen, wobei das Unvermögen, Zielobjekte in einen bestimmten Zustand zu versetzen, sanktioniert wird. Anstatt auf den Ausführungspfad von Richtlinien in einer hierarchisch geordneten Weise zu schauen, kann das vorliegende Verfahren darauf schauen, welche Governance-Objekte der unteren Ebene in einem Unternehmen vorhanden sind und wie diese mit den Richtlinien der höheren Ebene zusammenhängen. Die Berechnung der Erhaltbarkeit folgt einem Bottom-up-Ansatz. Bei dem vorliegenden Verfahren kann die Erhaltbarkeit nicht über das am besten erhaltbare Cluster definiert werden, sondern über ein Cluster, das sowohl der Erhaltbarkeit als auch der Cluster-Qualität gerecht wird. Das Erhaltbarkeitsmodell kann Daten im Bereich von Hunderten von Millionen von Datenobjekten Rechnung tragen.
Die erste Metrik wird unter Verwendung von mindestens den zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt. Zum Beispiel kann die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters sowie weiterer Eigenschafen wie beispielsweise der Eigenschaft „Grad der Eigentümerschaft“ bestimmt werden.
Das vorliegende Verfahren kann den Vorteil haben, dass es ein zuverlässiges und robustes Verfahren für das Löschen von Datenobjekten beruhend auf exakten Kriterien bereitstellt, die sowohl die Datenobjekte als auch die Benutzer der Datenobjekte einschließen. Das Verfahren kann eine wahrscheinliche Löschfunktion durch das Testen von Daten beruhend auf Wahrscheinlichkeitsberechnungen berechnen, indem es Dateivektoren für die Verbindung aus Trainings- und Testdaten erzeugt. Dies kann den optimalen Satz von zu löschenden Datenobjekten bereitstellen und somit vermeiden, dass Datenobjekte gelöscht werden, die immer noch verwendbar sind oder immer noch gebraucht werden.
Gemäß einer Ausführungsform beinhaltet das Verfahren des Weiteren das Erzeugen eines Satzes von Vektoren, die die jeweiligen kombinierten Eigenschaften aufweisen, wobei das Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus das Eingeben von mindestens einem Teil des Satzes von Vektoren in den Clustering-Algorithmus beinhaltet. Die erste Metrik eines bestimmten Clusters ist eine Kombination aus Objektmetriken von Datenobjekten des Clusters, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt. Diese Ausführungsform kann eine exakte Clustermetrik bereitstellen, die zu einem optimaleren Satz von zu löschenden Datenobjekten führen kann.
Zur Objektmetrik eines bestimmten Datenobjekts gehört eine gewichtete Summe der Aktivität von Benutzern des bestimmten Datenobjekts, multipliziert mit der Aktivität des bestimmten Datenobjekts. Die Aktivität des Benutzers wird beruhend auf dem Ergebnis eines Vergleichs der aktuellen Uhrzeit mit dem dem Benutzer zugeordneten Startzeitpunkt und Endzeitpunkt festgestellt. Die Aktivität des bestimmten Datenobjekts wird beruhend auf dem Ergebnis eines Vergleichs des letzten Änderungszeitpunkts oder des Erstellungsdatums des bestimmten Datenobjekts mit dem einem Benutzer des bestimmten Datenobjekts zugeordneten Startzeitpunkt und Endzeitpunkt festgestellt. Diese Ausführungsform kann eine wirksame Kombination aus Benutzer- und Objekteigenschaften für die Definition der Metriken bereitstellen.
Die Summe wird über Benutzer derjenigen Benutzer gebildet, deren vorher festgelegter Grad der Eigentümerschaft an dem bestimmten Datenobjekt höher als ein vorher festgelegter Schwellenwert ist. Dies kann die Ermittlung des Satzes von zu löschenden Datenobjekten weiter optimieren. Der Grad der Eigentümerschaft kann zum Beispiel die Zugriffsberechtigung oder die Ebene des Zugriffs eines Benutzers auf ein Datenobjekt sein. Dies kann zum Beispiel in der Zugriffssteuerungsliste (ACL, access control list) des Datenobjekts angegeben sein.
Die erste Metrik ist der Mittelwert der Objektmetriken der Datenobjekte eines Clusters. In einem weiteren Beispiel enthält die erste Metrik die Summe der Objektmetriken der Datenobjekte eines Clusters. In einem weiteren Beispiel kann die erste Metrik auf der Aktualität von Objekten oder dem Alter von Objekten beruhen. Die erste Metrik kann zum Beispiel ein normalisierter Wert (z.B. im Bereich [0, 1]) sein.
Die zweite Metrik kann ein Hinweis auf die Anzahl der Datenobjekte und die Anzahl der Eigenschaftswerte der Datenobjekte eines Clusters sein. Die Anzahl der Eigenschaftswerte kann die Anzahl der Werte von verschiedenen Eigenschaften sein. Die zweite Metrik kann ein Hinweis auf die Spärlichkeit von Datenobjekt-Eigenschaften bei der Anzahl der Datenobjekte, die sie anwendet, sein. Falls Datenobjekte zum Beispiel über Eigenschaften oder Attribute wie etwa Alter oder Abteilung verfügen, können zu den einzelnen Eigenschaftswerten einzelne Werte des Alters oder der Abteilung gehören.
Die Benutzereigenschaft kann einen Grad der Eigentümerschaft des Benutzers an einer Datei und den dem Benutzer zugeordneten Startzeitpunkt und Endzeitpunkt beinhalten. Der Grad der Eigentümerschaft des Benutzers an einer Datei kann die richtige Ebene des Zugriffs des Benutzers auf die Datei (z.B. Administrator-Benutzer oder Benutzer mit Lesezugriff) beinhalten. Der dem Benutzer zugeordnete Startzeitpunkt und Endzeitpunkt kann zum Beispiel der Startzeitpunkt und der Endzeitpunkt des Benutzers, bei dem es sich um ein Projekt handelt, sein. Die Objekteigenschaft eines Datenobjekts kann zum Beispiel ein Erstellungsdatum des Datenobjekts, einen letzten Änderungszeitpunkt des Datenobjekts, die Größe des Datenobjekts, den Typ des Datenobjekts, das das Datenobjekt einbettende Dateisystem, eine Angabe, dass das Datenobjekt binär ist oder nicht, oder einen Speicherort des Datenobjekts beinhalten.
Der Clustering-Algorithmus ist ein hierarchischer Clustering-Algorithmus, wobei das am besten löschbare Cluster das Pareto-optimale Cluster unter den Metriken ist. Bei Verwendung des hierarchischen Clustering-Algorithmus sind gegebenenfalls keine Apriori-Informationen über die Anzahl der benötigten Cluster erforderlich.
Das Verfahren beinhaltet des Weiteren die Verwendung des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt eines weiteren Satzes von Datenobjekten löschbar oder nicht löschbar ist. Zum Beispiel kann jedes Datenobjekt des Satzes von Datenobjekten mit dem am besten löschbaren Cluster verglichen werden, indem der Abstand zwischen dem Datenobjekt und einem ausgewählten Punkt des am besten löschbaren Clusters berechnet wird. Der ausgewählte Punkt kann zum Beispiel der Zentroid des am besten löschbaren Clusters sein.
Ein weiterer Satz von Datenobjekten kann in einem anderen Computersystem gespeichert werden. Der weitere Satz von Datenobjekten gehört einem oder mehreren Benutzern. Diese Ausführungsformen können insbesondere in dem Fall vorteilhaft sein, in dem Datenbanken dieselbe Art von Daten aufweisen. Mindestens ein Teil der Vektoren kann aus dem Satz von Vektoren zufällig ausgewählt werden. Dadurch kann ein systematischer Fehler bei der Ermittlung des am besten löschbaren Clusters vermieden werden. Bei dem am besten löschbaren Cluster kann es sich um das Cluster handeln, das über ein Paar von Werten der ersten und der zweiten Metrik verfügt, die sowohl die Zielfunktion der hohen Löschbarkeit als auch der hohen Qualität erfüllen. Das Wertepaar der ersten und der zweiten Metrik kann man erhalten, wenn keine der Zielfunktionen im Wert verbessert werden kann, ohne die anderen Zielfunktionswerte zu verschlechtern. Die Lösung, die dieses Paar aufweist, kann Pareto-optimal oder Pareto-effizient sein.
Das am besten löschbare Cluster kann das Cluster mit dem höchsten Wert der ersten Metrik und dem höchsten Wert der zweiten Metrik unter von dem Clustering-Algorithmus definierten Clustern sein. Anders ausgedrückt, man kann die höchstmögliche Kombination aus Löschbarkeit und Qualität erhalten, wobei Löschbarkeit die Qualität überwiegt.
1 stellt ein allgemeines computergestütztes System dar, das für die Durchführung von Verfahrensschritten, die in der Offenbarung eingeschlossen sind, geeignet ist.
Es dürfte sich verstehen, dass die hierin beschriebenen Verfahren mindestens teilweise nicht interaktiv sind und mittels computergestützter Systeme wie beispielsweise Server oder eingebetteter Systeme automatisiert werden. In beispielhaften Ausführungsformen können die hierin beschriebenen Verfahren in einem (teilweise) interaktiven System durchgeführt werden. Diese Verfahren können des Weiteren in Software 112, 122 (darunter Firmware 122), Hardware (Prozessor) 105 oder einer Kombination daraus ausgeführt sein. In beispielhaften Ausführungsformen sind die hierin beschriebenen Verfahren in Software, als ein ausführbares Programm, ausgeführt und werden durch einen digitalen Spezial- oder Universalcomputer, wie zum Beispiel einen Personal Computer, eine Workstation, einen Minicomputer oder einen Mainframe-Computer durchgeführt. Das allgemeinste System 100 enthält daher einen Universalcomputer 101.
In Bezug auf die Hardware-Architektur, die in 1 gezeigt ist, enthält der Computer 101 in beispielhaften Ausführungsformen einen Prozessor 105, einen Speicher (Hauptspeicher) 110, der mit einem Hauptspeichercontroller 115 verbunden ist, und eine oder mehrere Ein- und/oder Ausgabe-(E/A-)Einheiten (oder Peripheriegeräte) 10, 145, die durch Übertragung über einen lokalen Ein-/Ausgabecontroller 135 verbunden sind. Bei dem Ein-/Ausgabecontroller 135 kann es sich, ohne darauf beschränkt zu sein, um einen oder mehrere Busse oder andere drahtgebundene oder drahtlose Verbindungen, die in der Technik bekannt sind, handeln. Der Ein-/Ausgabecontroller 135 kann über zusätzliche Elemente verfügen, die aus Gründen der Einfachheit weggelassen wurden, wie zum Beispiel Controller, Pufferspeicher (Cachespeicher), Treiber, Verstärker und Empfänger, um Übertragungen zu ermöglichen. Des Weiteren kann die lokale Schnittstelle Adress-, Steuer- und/oder Datenverbindungen enthalten, um entsprechende Übertragungen zwischen den vorstehend erwähnten Komponenten zu ermöglichen. Wie hierin beschrieben ist, kann zu den E/A-Einheiten 10, 145 im Allgemeinen eine beliebige, in der Technik bekannte allgemeine Verschlüsselungskarte oder Smartcard gehören.
Der Prozessor 105 ist eine Hardware-Einheit zur Ausführung von Software, insbesondere der im Hauptspeicher 110 gespeicherten Software. Der Prozessor 105 kann ein beliebiger kundenspezifisch hergestellter oder handelsüblicher Prozessor, eine zentrale Verarbeitungseinheit (CPU), ein Hilfsprozessor unter mehreren Prozessoren, die zu dem Computer 101 gehören, ein halbleiterbasierter Mikroprozessor (in Form eines Mikrochips oder eines Chipsatzes), ein Makroprozessor oder allgemein eine beliebige Einheit zur Ausführung von Softwareanweisungen sein.
Der Hauptspeicher 110 kann ein beliebiges oder eine Kombination aus flüchtigen Hauptspeicherelementen (z.B. einen Direktzugriffsspeicher (RAM, wie beispielsweise einen DRAM, SRAM, SDRAM usw.)) und nicht flüchtigen Hauptspeicherelementen (z.B. ROM, einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM), einen elektronisch löschbaren, programmierbaren Nur-Lese Speicher (EEPROM), einen programmierbaren Nur-Lese-Speicher (PROM)) enthalten. Es sei angemerkt, dass der Hauptspeicher 110 eine verteilte Architektur haben kann, bei der verschiedene Komponenten räumlich voneinander entfernt sind, der Prozessor 105 jedoch auf sie zugreifen kann.
Zu der Software im Hauptspeicher 110 können ein oder mehrere gesonderte Programme gehören, von denen jedes eine geordnete Liste von ausführbaren Anweisungen zur Ausführung von logischen Funktionen, vor allem Funktionen, die in Ausführungsformen dieser Erfindung eingeschlossen sind, enthalten kann. In dem Beispiel von 1 enthält die Software im Hauptspeicher 110 Anweisungen oder Software 112, z.B. Anweisungen zur Verwaltung von Datenbanken wie beispielsweise eines Datenbankverwaltungssystems.
Zu der Software im Hauptspeicher 110 muss üblicherweise auch ein geeignetes Betriebssystem (OS, operating system) 111 gehören. Das OS 111 steuert im Wesentlichen die Ausführung von weiteren Computerprogrammen wie möglicherweise etwa der Software 112 zur Durchführung von Verfahren, die hierin beschrieben sind.
Die hierin beschriebenen Verfahren können in Form von einem Quellenprogramm oder Software 112, einem ausführbaren Programm oder Software 112 (Objekt-Code), einem Skript oder einer beliebigen anderen Entität, die einen Satz von auszuführenden Anweisungen 112 aufweist, vorliegen. Im Falle eines Quellenprogramms muss das Programm mittels eines Compilers, Assemblers, Interpreters oder dergleichen, die im Hauptspeicher 110 enthalten oder auch nicht enthalten sein können, übersetzt werden, damit es in Verbindung mit dem OS 111 ordnungsgemäß arbeitet. Darüber hinaus können die Verfahren als eine objektorientierte Programmiersprache, die Klassen von Daten und Verfahren hat, oder eine Prozedur-Programmiersprache, die über Routinen, Unterroutinen und/oder Funktionen verfügt, geschrieben sein.
In beispielhaften Ausführungsformen können eine herkömmliche Tastatur 150 und eine Maus 155 mit dem Ein-/Ausgabecontroller 135 verbunden sein. Zu weiteren Ausgabeeinheiten wie beispielsweise den E/A-Einheiten 145 können Eingabeeinheiten gehören, zum Beispiel, ohne darauf beschränkt zu sein, ein Drucker, ein Scanner, ein Mikrofon und dergleichen. Schließlich können zu den E/A-Einheiten 10, 145 des Weiteren Einheiten gehören, die sowohl Eingaben als auch Ausgaben übertragen, zum Beispiel, ohne darauf beschränkt zu sein, eine Netzschnittstellenkarte (NIC, network interface card) oder ein Modulator/Demodulator (für den Zugriff auf andere Dateien, Einheiten, Systeme oder ein Netzwerk), ein Hochfrequenz-(HF-) oder ein anderer Sendeempfänger, eine Telefonschnittstelle, eine Brücke, ein Leitwegrechner und dergleichen. Bei den E/A-Einheiten 10, 145 kann es sich um eine beliebige, in der Technik bekannte allgemeine Verschlüsselungskarte oder Smartcard handeln. Zu dem System 100 kann des Weiteren ein Bildschirmcontroller 125 gehören, der mit einem Bildschirm 130 verbunden ist. In beispielhaften Ausführungsformen kann das System 100 des Weiteren eine Netzschnittstelle zur Anbindung an ein Netzwerk 165 enthalten. Das Netzwerk 165 kann ein IP-basiertes Netzwerk für einen Datenaustausch zwischen dem Computer 101 und einem beliebigen externen Server, Client und dergleichen über eine Breitbandverbindung sein. Das Netzwerk 165 sendet und empfängt Daten zwischen dem Computer 101 und externen Systemen 30, die eingebunden werden können, um einen Teil oder alle Schritte der hierin erörterten Verfahren durchzuführen. In beispielhaften Ausführungsformen kann das Netzwerk 165 ein verwaltetes IP-Netzwerk mit einem Dienstanbieter als Administrator sein. Das Netzwerk 165 kann drahtlos ausgeführt sein, z.B. unter Verwendung von Drahtlosprotokollen und - technologien, wie zum Beispiel WiFi, WiMax usw. Das Netzwerk 165 kann auch ein paketvermitteltes Netzwerk wie zum Beispiel ein lokales Netzwerk, ein Weitverkehrsnetz, ein Hochgeschwindigkeitsnetz, ein Internet-Netzwerk oder eine andere ähnliche Art von Netzwerkumgebung sein. Das Netzwerk 165 kann ein festes drahtloses Netzwerk, ein drahtloses lokales Netzwerk (LAN), ein drahtloses Weitverkehrsnetz (WAN), ein Personal Area Network (PAN), ein virtuelles privates Netz (VPN), ein Intranet oder ein anderes geeignetes Netzwerksystem sein und enthält Technik für den Empfang und das Senden von Signalen.
Falls der Computer 101 ein PC, eine Workstation, eine intelligente Einheit oder dergleichen ist, kann zu der Software im Hauptspeicher 110 des Weiteren ein grundlegendes Eingabe-/Ausgabesystem (BIOS, basic input output system) gehören. Das BIOS ist ein Satz von wichtigen Software-Routinen, die Hardware beim Start initialisieren und testen, das OS 111 starten und die Übertragung von Daten zwischen den Hardware-Einheiten unterstützen. Das BIOS ist im ROM gespeichert, so dass das BIOS ausgeführt werden kann, wenn der Computer 101 aktiviert wird.
Wenn der Computer 101 in Betrieb ist, wird der Prozessor 105 so konfiguriert, dass er die im Hauptspeicher 110 gespeicherte Software 112 ausführt, Daten in den und aus dem Hauptspeicher 110 überträgt und allgemein Operationen des Computers 101 gemäß der Software steuert. Die hierin beschriebenen Verfahren und das OS 111, ganz oder teilweise, üblicherweise aber das Letztere, werden durch den Prozessor 105 gelesen, möglicherweise in dem Prozessor 105 zwischengespeichert und dann ausgeführt.
Wenn die hierein beschriebenen Systeme und Verfahren in Software 112 ausgeführt sind, wie in 1 gezeigt ist, können die Verfahren auf einem beliebigen durch einen Computer lesbaren Datenträger, wie beispielsweise dem Speicher 120, zur Verwendung durch oder in Verbindung mit einem beliebigen computerbezogenen System oder Verfahren gespeichert werden. Zum Speicher 120 kann ein Plattenspeicher wie beispielsweise ein HDD-Speicher gehören.
Das System 100 kann einem oder mehreren Benutzern p1 bis pN zugeordnet sein. Der Begriff „Benutzer“ kann sich auf eine Entität wie beispielsweise eine Einzelperson, einen Computer, ein Projekt oder eine auf einem Computer ausgeführte Anwendung beziehen. In einem Beispiel kann das System 100 über das Netzwerk 165 mit dem Benutzer p2 verbunden sein. Der Benutzer p2 kann zum Beispiel ein Computer oder eine Computeranwendung sein. In einem weiteren Beispiel kann ein Benutzer wie beispielsweise p1 eine Einzelperson sein, die über ein Konto in dem System 100 verfügt.
Der Speicher 120 kann Datenobjekte f1 bis fN der Benutzer p1 bis pN enthalten. Ein Datenobjekt kann zum Beispiel eine Datei oder mindestens ein Teil einer Datenbank sein. Zum Beispiel können dem Benutzer p2 ein oder mehrere Datenobjekte von f1 bis fN zugeordnet werden, auf die zum Beispiel p2 Zugriff hat oder die p2 liest, um eine Anwendung zu verarbeiten etc. In einem weiteren Beispiel kann ein Datenobjekt f1 bis fN wie beispielsweise ein Buch einem Benutzer p1 gehören. Anders ausgedrückt, die Datenobjekte f1 bis fN haben eine Beziehung oder Verbindung zu den Benutzern p1 bis pN.
Der Speicher 120 kann des Weiteren die Datenobjekte f1 bis fN und die Datenobjekte p1 bis pN beschreibende (z.B. die Eigenschaften beschreibende) Metadaten enthalten. Zum Beispiel sind die Metadaten metaf1 bis metafN Metadaten der jeweiligen Datenobjekte f1 bis fN. Die Metadaten metap1 bis metapN sind Metadaten der jeweiligen Benutzer p1 bis pN.
Ein Metadatum metaf1 bis fN kann ein oder mehrere Objektattribute Attf1_1 bis Attf1_N, Attf2_1 bis Attf2_N...AttfN_1 bis AttfN_N enthalten, deren Werte jeweils Eigenschaften des Datenobjekts f1 bis fN beschreiben. Zum Beispiel kann ein Objektattribut ein Erstellungsdatum, ein Dateiformat oder einen Vertraulichkeitsgrad des jeweiligen Datenobjekts enthalten. Anders ausgedrückt, jedes Objektattribut eines Metadatums metaf1 bis metafN hat einen Wert, der eine Datenobjekt-Eigenschaft des jeweiligen Datenobjekts f1 bis fN beschreibt. Jedes Datenobjekt (z.B. f1) hat mindestens ein Attribut der Attribute Attf1_1 bis Attf1_N, das zeitbezogen oder zeitabhängig ist. Angenommen, zum Zweck der beispielhaften Erläuterung, die Attribute Attf1_1 und Attf1_3 von f1 sind zeitabhängig, da Attf1_1 das Erstellungsdatum von f1 und Attf1_3 der letzte Änderungszeitpunkt des Datenobjekts f1 ist. Die Datenobjekte f1 bis fN können dieselben Objektattribute in ihren jeweiligen Metadaten metaf1 bis metafN haben oder auch nicht haben.
Ein Metadatum metap1 bis pN kann ein oder mehrere Benutzerattribute Attp1_1 bis Attp1_N, Attp2_1 bis Attp2_N...AttpN_1 bis AttpN_N enthalten, deren Werte jeweils Benutzereigenschaften des Benutzers p1 bis pN beschreiben. Die Benutzereigenschaft kann eine Eigenschaft des Benutzers selbst oder eine Eigenschaft enthalten, die die Beziehung des Benutzers zu einem oder mehreren Datenobjekten f1 bis fN beschreibt. Zum Beispiel kann eine Benutzereigenschaft angeben, dass der Benutzer der Eigentümer von einem oder mehreren Datenobjekten f1 bis fN ist. Anders ausgedrückt, jedes Benutzerattribut eines Metadatums metap1 bis metapN hat einen Wert, der eine Benutzereigenschaft des jeweiligen Benutzers beschreibt. Zum Beispiel können sich die Benutzer p1 und p3 beide auf das Datenobjekt f1 beziehen, da p1 und p3 Eigentümer des Datenobjekts f1 sind. Somit können die Metadaten metap1 und metap3 jeweils ein Attribut (z.B. „owner of“) mit dem Wert „f1“ (z.B. Attp1_1=„owner of“ und Attp3_1=„owner of“) enthalten. Jeder Benutzer hat mindestens ein Attribut der Benutzerattribute Attp1_1 bis AttpN_N, das zeitbezogen oder zeitabhängig ist. Zum Beispiel kann ein Benutzerattribut „FromDate“ das Startdatum eines Projekts (z.B. pN) angeben und ein weiteres Benutzerattribut „ToDate“ kann den Endzeitpunkt des Projekts pN angeben. Zum Beispiel haben die Benutzer p1 und p3 ihre jeweiligen Metadaten metap1 und metap3, die die Attribute „FromDate“ und „ToDate“ (z.B. Attp1_2= „FromDate“ und Attp1_3=„ToDate“ und Attp3_2= „FromDate“ und Attp3_3=„ToDate“) aufweisen. Die Benutzer p1 bis pN können dieselben Benutzerattribute in ihren jeweiligen Metadaten metap1 bis metapN haben oder auch nicht haben.
In einem Beispiel können die Attribute der Datenobjekte f1 bis fN und der Benutzer p1 bis pN so konfiguriert werden (z.B. unter Verwendung eines Tags), dass jedes Attribut ein Hinweis darauf ist, ob es einer zeitabhängigen Eigenschaft entspricht.
2 ist ein Ablaufplan eines Verfahrens zur Verarbeitung eines in einem Computersystem 100 gespeicherten Satzes von Datenobjekten (f1 bis fN) von einem oder mehreren Benutzern (p1 bis pN). Das Verfahren kann verwendet werden, um ein Speichersystem (z.B. den Speicher 120) zu bereinigen, indem die Datenobjekte gelöscht werden, die durch das vorliegende Verfahren als löschbar ermittelt werden.
Wie in 1 veranschaulicht ist, werden jedem Datenobjekt f1 bis fN jeweilige Metadaten metaf1 bis metafN zugeordnet, die die Datenobjekt-Eigenschaften des Datenobjekts aufweisen. Darüber hinaus werden jedem Benutzer p1 bis pN Metadaten metap1 bis metapN zugeordnet, die Benutzereigenschaften der Benutzer p1 bis pN aufweisen.
Im Schritt 201 kann eine kombinierte Eigenschaft für jedes Datenobjekt des Satzes von Datenobjekten f1 bis fN festgestellt werden. Die kombinierte Eigenschaft eines bestimmten Datenobjekts enthält mindestens einen Teil der Datenobjekt-Eigenschaften des bestimmten Datenobjekts und die Benutzereigenschaften der Benutzer des bestimmten Datenobjekts. Zum Beispiel kann die kombinierte Eigenschaft des Datenobjekts f1 die Metadaten metaf1 von f1 sowie metap1 und metap3 enthalten, da die Benutzer p1 und p3 die Eigentümer von f1 sind (vgl. 1). Anders ausgedrückt, die kombinierte Eigenschaft des bestimmten Datenobjekts f1 kann Werte der Objektattribute (Attf1_1-Attf1_N) von den Metadaten metaf1 und Werte der Benutzerattribute (Attp1_1-N und Attp3_1-N) von den Metadaten metap1 und metap3 aufweisen, die sich auf f1 beziehen.
Im Schritt 203 kann ein Satz von Vektoren erzeugt werden, so dass jeder Vektor die jeweiligen kombinierten Eigenschaften aufweist. Zum Beispiel kann für jedes Datenobjekt f1 bis fN ein jeweiliger Vektor erstellt oder erzeugt werden. Der Vektor eines bestimmten Datenobjekts f1 kann zum Beispiel ein mehrdimensionaler Vektor sein, der über eine Dimension für jedes Attribut des Objekts und Benutzerattribute der kombinierten Eigenschaft des bestimmten Datenobjekts f1 verfügt.
Im Schritt 205 können zeitabhängige Eigenschaften des Satzes von Datenobjekten festgestellt oder ermittelt werden. Zum Beispiel können für jede kombinierte Eigenschaft Datenobjekt- und Benutzereigenschaften dieser kombinierten Eigenschaft ermittelt werden, die einen Zeitwert oder einen zeitbezogenen Wert haben.
Dem Beispiel des Datenobjekts f1 folgend, enthält die kombinierte Eigenschaft die Attribute Attf1_1-N, Attp1_1-N und Attp3_1-N. Jedes der Attribute Attf1_1-N, Attp1_1-N und Attp3_1-N kann geprüft werden, um festzustellen, ob es einen Zeitwert hat oder ob es einer zeitabhängigen Eigenschaft entspricht (z.B. unter Verwendung der den Attributen zugeordneten Typen). Für das Datenobjekt f1 können die Attribute Attf1_1 und Attf1_3, Attp1_2, Attp1_3, Attp3_2 und Attp3_3 ermittelt werden, da sie zeitabhängigen Eigenschaften entsprechen.
Im Schritt 207 können mindestens zwei Metriken bestimmt oder definiert werden. Eine erste Metrik der Metriken kann die Löschbarkeit eines Clusters von Datenobjekten angeben und eine zweite Metrik der Metriken kann die Qualität des Clusters angeben. Die erste Metrik eines bestimmten Clusters kann unter Verwendung von mindestens den zeitabhängigen Eigenschaften der Datenobjekte des bestimmten Clusters bestimmt werden. Die zweite Metrik kann ein Qualitätsmaß bereitstellen, so dass der Clusteringprozess im Hinblick auf dieses Maß optimiert werden kann.
Zum Beispiel kann die Löschbarkeitsmetrik so definiert werden, dass sie angibt, wie aktiv ein bestimmtes Datenobjekt sowohl auf den zeitabhängigen Objekteigenschaften des Datenobjekts als auch den zeitabhängigen Benutzereigenschaften der Benutzer, die sich auf das Datenobjekt f beziehen, oder genauer gesagt, der Eigentümer des Datenobjekts f beruht. Die Aktivität von Benutzern p, die auf das Datenobjekt f zugreifen können, kann festgestellt werden, zum Beispiel, da eine Löschvariable, die als aprioriDel(p) für einen Benutzer p derjenigen Benutzer bezeichnet wird, die angeben, dass der Benutzer p und sein gesamter Inhalt als löschbar betrachtet wird, definiert werden kann. Zum Beispiel kann aprioriDel(p) von dem Benutzer p auf einen bestimmten Wert gesetzt werden, der angibt, dass der Inhalt von p löschbar ist. Unter Verwendung der Löschvariablen des Benutzers p und der dem Benutzer p zugeordneten Attribute, die zeitabhängig sind, wie beispielsweise FromDate(p) und ToDate(p), kann die Aktivität des Benutzers p (die als projectActiveness(p) bezeichnet wird) wie folgt berechnet werden:

       projectActiveness(p) = 0 if aprioriDel(p)
       3 if NOW after FromDate(p) & NOW before ToDate(p)

        1   if NOW after ToDate(p)

       1 if NOW before FromDate(p)
       0 otherwise, where NOW is the current time.

Die aktuelle Uhrzeit („current time“) kann die Uhrzeit sein, zu der das vorliegende Verfahren ausgeführt wird. Die Aktivität eines jeden Datenobjekts f in Bezug auf einen entsprechenden Benutzer p, die als fileActiveness(f,p) bezeichnet wird, kann durch eine Variable recent(f) festgestellt werden, die angibt, ob das Datenobjekt f neu ist oder nicht. Die Variable recent (f) kann beruhend auf dem Alter des Datenobjekts f definiert werden, welches wie folgt definiert werden kann | NOW - date(f) | oder als log | NOW - date(f) |, wobei date(f) das Erstellungsdatum des Datenobjekts f ist. Falls | NOW - date(f) | kleiner als ein vorher festgelegter Schwellenwert ist, kann die Variable recent(f) einen Wert (z.B. 1) haben, der angibt, ob das Datenobjekt f neu ist, andernfalls kann die Variable recent(f) einen Wert (z.B. 0) haben, der angibt, dass das Datenobjekt f nicht neu ist. Die Aktivität des Datenobjekts f in Bezug auf einen bestimmten Benutzer p (fileActiveness(f,p)) kann unter Verwendung der Variablen recent(f), des Erstellungsdatums von f und zeitabhängiger Attribute des Benutzers p, nämlich ToDate und FromDate, wie folgt berechnet werden.

       fileActiveness(f,p) = SUM_i[dateFactors_i(f,p)] with
       dateFactors_1(f,p) = 2 if date(f) < ToDate(p)
       dateFactors_2(f,p) = 2 if date(f) > Fromdate(p)
       dateFactors_3(f,p) = 1 if recent(f).

Unter Verwendung der berechneten Aktivität von Benutzern p, die auf das Datenobjekt f zugreifen können, und der Aktivität des Datenobjekts f, fileActiveness(f,p), in Bezug auf jeden dieser Benutzer p, kann die kombinierte Aktivität (combactive) als eine gewichtete Summe wie folgt definiert werden:
combactive(f) = SUM_{p} (projectActiveness(p) *
fileActiveness(f, p)), wobei die Summe über Benutzer gebildet wird, die Zugriff auf das Datenobjekt f haben.

Eine Objektmetrik (specDel(f)) des Datenobjekts f kann dann unter Verwendung der kombinierten Aktivität combactive(f) wie folgt definiert werden: specDel(f) = 1 falls combactive(f) = 0
oder andernfalls 1/combactive(f).

Unter Verwendung der Objektmetriken der Datenobjekte, die zu einem Cluster c gehören, kann die erste Metrik (specDel(c)) des Clusters c zum Beispiel als der Mittelwert der Objektmetriken berechnet werden: specDel(c) = MEAN[specDel(f)] f ∈ c. („f ∈ c“ bezieht sich auf Datenobjekte f, die zu dem Cluster c gehören).

In einem weiteren Beispiel kann die obige Summe SUM_{p} über einen Teil der Benutzer, die auf das Datenobjekt f zugreifen können, gebildet werden. Dieser Teil der Benutzer kann ausgewählt werden, zum Beispiel beruhend auf dem Grad der Eigentümerschaft eines jeden Benutzers p an dem Datenobjekt f. Dieser Grad der Eigentümerschaft kann als strengthOfOwnership(f, p) bezeichnet und als die Summe der Eigentümerschaft-Indikatoren von p in f definiert werden. Dies kann zum Beispiel die wichtigsten Eigentümer des Datenobjekts f angeben. Zu den Eigentümerschaft-Indikatoren gehören zum Beispiel der Vorname oder der Zuname von p in dem Dateinamen von f, die Dateisystem-Eigentümerschaft oder projektbezogene Indikatoren. Der Teil der Benutzer kann als die Benutzer definiert werden, deren strengthOfOwnership(f, p) höher als ein vorher festgelegter Schwellenwert t ist: P_t(f) = {p E p1-pN | strengthOfOwnership(f, p) > t}.

In diesem Fall kann die kombinierte Aktivität des Datenobjekts f als eine gewichtete Summe wie folgt definiert werden:
combactive(f) = SUM_{p ∈ P_t(f)} (projectActiveness(p) *
fileActiveness(f, p)).

Im Schritt 209 kann mindestens ein Teil des im Schritt 203 erstellten Satzes von Vektoren in einen Clustering-Algorithmus eingegeben werden. Der mindestens eine Teil des Satzes von Vektoren kann als ein Trainings-Datensatz verwendet werden. Der Clustering-Algorithmus kann zum Beispiel ein hierarchischer Clustering-Algorithmus sein. Der mindestens eine Teil des Satzes von Vektoren kann zum Beispiel aus dem Satz von Vektoren zufällig ausgewählt werden.

Im Schritt 211 kann der Clustering-Algorithmus so konfiguriert werden, dass er die Datenobjekte zu einem Cluster zusammenfasst und ein am besten löschbares Cluster beruhend auf den im Schritt 207 bestimmten Metriken ermittelt. Zum Beispiel kann der in US 2016/0004730 A1 beschriebene Clustering-Algorithmus, der durch Bezugnahme Bestandteil hiervon ist, verwendet werden, um beruhend auf der distance(c1,c2-)Funktion, die einen (normalisierten) Euklidischen Abstand zwischen den Vektoren der beiden Cluster c1, c2 bereitstellt, eine hierarchische Cluster-Struktur aufzubauen. Die erste Metrik specDel(c) kann als Spezialisierungskriterium zum Erlernen einer probabilistischen Löschbarkeitsschätzfunktion del(f) und die zweite Metrik als ein Mittel zur Verallgemeinerung der gesamten für alle digitalen Objekte vorhandenen Informationen verwendet werden. Ein gutes Cluster ist ein Cluster mit einem niedrigen Wert der zweiten Metrik (d.h. hohe Qualität) und einer hohen Löschbarkeit. Das Konfigurieren des Clustering-Algorithmus kann die Integration von zwei Kriterien für die erste Metrik und die zweite Metrik in den Lern-/Clusteraufbauprozess aufweisen, um ein am besten löschbares Cluster zu finden, so dass sein erster und sein zweiter Metrikwert beides, die Zielfunktion der hohen Löschbarkeit und der hohen Qualität erfüllen. Das heißt, der erste und der zweite Metrikwert des am besten löschbaren Clusters ist der, den man erhält, falls keine der Zielfunktionen im Wert verbessert werden kann, ohne die anderen Zielfunktionswerte zu verschlechtern. Das Paar des ersten und des zweiten Metrikwerts des am besten löschbaren Clusters kann Pareto-optimal oder Pareto-effizient sein.

Ein Pseudocode des Clustering-Algorithmus, um F-Dateien zu einem Cluster zusammenzufassen, kann zum Beispiel wie folgt gesetzt werden: Die Variable namens dateDeletability(c) in dem folgenden Pseudocode ist die erste Metrik specDel(c).

v(F) - Satz aller Dateivektoren (z.B. als der obige Satz von Vektoren bestimmt)
       F_t Teilmenge F - Schulungssatz, F - alle Dateien
       v(F_t) Teilmenge v(F) zufällig gewählt
       1.

Lernschritt.

(1) Hole zufälligen Satz v(F_t) aus v(F)
(2) Erzeuge Satz von Anfangsclustern C1 ... Ck
(3) Führe Clustering mit Euklidischem Abstand durch und starte dabei mit C1 bis Ck, was Cluster ergibt Ck+1, ...,Cm (Baumstruktur). Für jedes neue Cluster CJ berechne cvalue(CJ) und dateDeletability(CJ).
(4) Suche das Cluster C_r (1 <= r <= m), so dass dateDeletability(C_r) * k0 + 1/cvalue(C_r) maximal ist, wobei k0 eine vorher festgelegte Konstante ist
(5) Definiere del(f) =def 1 - distance(v(C_r), v(f)) 2. Klassifizierungsschritt. Für alle Dateien F_i: wenn del(F_i) > Schwellenwert, gib (F_i) aus

k0 in dem obigen Algorithmus kann hoch genug gewählt werden, so dass dateDeletability() die Wirkung von cvalue() in allen praktischen Fällen überwiegt. Das am besten löschbare Cluster kann man durch Maximierung von dateDeletability(C_r) * k0 + 1/cvalue(C_r) erhalten. Dadurch besteht die Möglichkeit, ein am besten löschbares Cluster zu finden, das über ein Paar dateDeletability() und cvalue() verfügt, welches man erhält, falls keine der Zielfunktionen (z.B. erhöhe Löschbarkeit) im Wert verbessert werden kann, ohne die andere Zielfunktion (z.B. erhöhe Qualität) zu verschlechtern. Im Schritt 213 kann der Clustering-Algorithmus verarbeitet werden, um ein am besten löschbares Cluster von Datenobjekten zu ermitteln.

Zum Beispiel kann das am besten löschbare Cluster unter Verwendung eines Optimierungsproblems mit 2 Zielwerten, nämlich den Werten der ersten und der zweiten Metrik, ermittelt werden. Eine Kombination der beiden Werte, in einem Beispiel, wie ein Schieberegler, mehr Gewicht zu der zweiten Metrik bedeutet, dass der Algorithmus allgemein immer mehr Gewicht zu der ersten Metric specDel(c) verschiebt, was bedeutet, dass sich der Algorithmus auf Beispieldaten spezialisiert. Diese Optimierung im Hinblick auf mehrere Zielfunktionen oder Kriterien kann eine Pareto-Optimierung sein. Eine Pareto-optimale Lösung ist ein Cluster mit einem bestimmten Wert der ersten Metrik und einem bestimmten Wert der zweiten Metrik, so dass jedes Cluster mit einem höheren Wert der zweiten Metrik einen niedrigeren Wert der ersten Metrik hat und umgekehrt, so dass mindestens zwei Lösungen bereitgestellt werden können.

Im Schritt 215 kann das am besten löschbare Cluster verwendet werden, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist. Zum Beispiel kann der Abstand distance(v(f), v(c_0)) zwischen dem Vektor eines Datenobjekts f und dem Zentroidvektor des am besten löschbaren Clusters mit der Bezeichnung c_0 angeben, ob das Datenobjekt f löschbar ist oder nicht. Wenn dieser Abstand zum Beispiel kleiner als ein maximaler Abstandsschwellwert ist, ist das Datenobjekt f löschbar. Der Zentroidvektor des am besten löschbaren Clusters ist der Vektor, den man erhält, indem man die Vektoren der Datenobjekte des am besten löschbaren Clusters kombiniert (z.B. aufsummiert und einen Mittelwert bildet). Der Abstand zwischen den Vektoren kann ein Euklidischer Abstand sein.

Zum Beispiel kann eine probabilistische Löschbarkeitsschätzfunktion del(f) verwendet werden, um zu schätzen oder festzustellen, ob ein Datenobjekt f löschbar ist oder nicht. In einem Beispiel ist def(f)= 1- distance(v(f), v(c_0)). Der Begriff „Löschbarkeit“ bezieht sich auf die Wahrscheinlichkeit, dass ein Datenobjekt f löschbar ist, und stellt seine Schätzfunktion dar durch: del(f) → [0, ..,1]. del(f) schätzt die zugrunde liegende Bayessche Wahrscheinlichkeit P(f ∈ f1-fN | Meta(d), Date(d), Org(d)) dahingehend, dass f unter Berücksichtigung von Metadaten, Nutzungsdaten und Organisationsdaten auf dem Datenobjekt f löschbar ist. Der Abstand zwischen zwei Vektoren kann zum Beispiel ein Euklidischer Abstand sein, der unter Verwendung der Elemente eines Vektors mit den entsprechenden Elementen eines weiteren Vektors berechnet wird.

3 ist ein Ablaufplan eines beispielhaften Verfahrens zum Schätzen der Löschbarkeit von vorher festgelegten Dateien.

Wie in 3 veranschaulicht ist, können die Testdaten und die Trainingsdaten wie folgt bestimmt werden. Unter Verwendung der Dateimetadaten 301 (wie beispielsweise metaf1 bis metafN) und der Projekt- und Personendaten 303 kann eine Zuordnung 305 (z.B. wie mit dem Schritt 203 beschrieben, um die kombinierten Eigenschaften zu ermitteln) vorgenommen werden, um Eigenschaften aus den Dateimetadaten 301 und entsprechenden Projekt- und Personendaten 303 zu Dateivektoren 307 zusammenzufassen. Die Dateimetadaten 301 sowie die Projekt- und Personendaten 303, die sich auf eine bestimmte Datei beziehen, können konzeptionell in einem einzelnen Vektor dargestellt werden. Dieser Vektor kann beruhend auf einer Anzahl von Eigentümerschaft-Indikatoren wie etwa dem Vornamen oder dem Nachnamen in dem Dateinamen, der Dateisystem-Eigentümerschaft oder projektbezogenen Indikatoren auch mehr Attribute enthalten, wie beispielsweise den wichtigsten Eigentümer einer Datei. Die Zuordnung 305 kann dazu führen, dass für jede Datei ein entsprechender Dateivektor erzeugt werden kann.

Die Trainingsdaten können aus der Gesamtheit der Dateivektoren 307 zufällig ausgewählt werden. Während Schulungsdaten in einem Bereich von 10 M Vektoren liegen können, kann die Löschbarkeitsschätzung im ungünstigsten Fall linear zur Anzahl der Testdaten und folglich praktisch unbegrenzt sein. Die Schulungsdaten können in den Clustering-Algorithmus 309 eingegeben werden. Der Clustering-Algorithmus 309 kann so konfiguriert werden, dass er eine probabilistische Löschbarkeitsfunktion (del(f)) 311 durch eine erste Lernphase, die die Schulungsdaten verwendet, bestimmt. Die Lernphase kann auf der ersten und der zweiten Metrik beruhen. Darüber hinaus können Attributwerte während der Zuordnungsphase normalisiert werden, um optimale Werte der zweiten Metrik zu erhalten. Um die beiden Kriterien für die erste und die zweite Metrik deutlicher zu unterscheiden, darf eine Berechnung der zweiten Metrik ferner nicht diejenigen (z.B. in diesem Fall datumbezogenen) Attribute verwenden, die in die Berechnung der Objektmetrik specDel(f) eingehen können.

Zum Beispiel kann als eine Optimierung für sehr große Sätze von Schulungsdaten in der ersten Phase eine Anfangssortierung verwendet werden, um Anfangscluster zu erhalten, die eine Vielzahl von Dateivektoren enthalten Sobald das am besten löschbare Cluster als das Pareto-optimale Cluster nach den beiden Kriterien der jeweiligen ersten und zweiten Metrik ausgewählt wurde, kann man bei 311 unter Verwendung des Schritts 1.4 des obigen Pseudocode-Algorithmus eine Löschbarkeitsfunktion erhalten.

In einer zweiten Phase wird die Löschbarkeitsfunktion bei 313 auf Testdaten aus derselben Gesamtheit wie die Schulungsdaten angewendet, wobei zu den Testdaten Schulungsdaten gehören können. Die zweite Phase führt zu vorher festgelegten ..., die bei 315 einer Löschbarkeitsschätzung zugeordnet werden. Da sowohl die erste als auch die zweite Phase bei 307 auf demselben Typ von Dateivektoren beruhen, geht ihnen bei 305 die Zuordnungsphase voraus, in der die Dateivektoren für die Verbindung aus Schulungs- und Testdaten erzeugt werden.

4 ist ein Ablaufplan eines Verfahrens zur Bereinigung eines Datenspeichers einer Produktionsumgebung, bei der es sich um das Computersystem 100 handeln kann oder auch nicht. Im Schritt 401 kann das am besten löschbare Cluster unter Verwendung der Datenobjekte f1 bis fN ermittelt werden, wie unter Bezugnahme auf 2 beschrieben ist. Im Schritt 403 kann ein weiterer Satz von Datenobjekten der Produktionsumgebung verarbeitet werden, um Datenobjekte des weiteren Satzes von Datenobjekten zu ermitteln, die gelöscht werden sollen. Ein Abstand zwischen jedem Datenobjekt des weiteren Satzes von Datenobjekten zum Zentroid des am besten löschbaren Clusters kann berechnet und mit einem vorher festgelegten Schwellenwert verglichen werden. Im Schritt 405 kann jedes Datenobjekt des weiteren Satzes von Datenobjekten, bei dem der Abstand kleiner als der vorher festgelegte Schwellenwert ist, gelöscht werden. Das Löschen der Datenobjekte weist das Archivieren der Datenobjekte in einem Archivspeicher für einen vorher festgelegten Zeitraum (z.B. 1 Jahr) und das Löschen der Datenobjekte nach dem Ablauf des Zeitraums auf.

In einem weiteren Beispiel wird ein Verfahren für ein Aufbewahrungsrichtlinien-Mining bereitgestellt. Das Verfahren beinhaltet das Definieren eines Merkmalsvektors v für Löschbarkeit oder Erhaltbarkeit, der Merkmalsvektor enthält zum Beispiel den Eigentümer, das Projekt, das Datum des letzten Zugriffs, das Erstellungsdatum und Zugriffsrechte. Das Verfahren beinhaltet das Feststellen von Merkmalsvektoren für Objekte und das Definieren einer Löschbarkeitsmetrik für ein Objekt, wenn die Löschbarkeitsmetrik von zeitbezogenen oder datumbezogenen Merkmalen eines Objekts abhängig sein kann. Das Verfahren beinhaltet das Feststellen von Löschbarkeitsmetrikwerten für die Objekte, das Definieren einer Cluster-Löschbarkeitsmetrik specDel() in Abhängigkeit von Löschbarkeitsmetrikwerten von Objekten, die zu dem Cluster gehören, das Definieren einer Clusterqualitätsmetrik cvalue(), die Objektmerkmale ohne Zeit- oder Datumsbezug bei Verwendung eines hierarchischen Clustering-Algorithmus (Stand der Technik) wiedergeben, um ein Paretooptimales Cluster unter der Clusterqualitätsmetrik cvalue() (wobei die Verallgemeinerung auf Merkmalen ohne Zeit- oder Datumsbezug beruht) und der Clusterlöschbarkeitsmetrik specDel() (Spezialisierung des Clustering an veralteten Objekten) festzustellen, was zu einem am besten löschbaren Cluster bdc führt. Das Verfahren beinhaltet das Definieren einer Schätzfunktion del(f) für die Löschbarkeit von Objekten f beruhend auf dem Abstand zwischen dem Merkmalsvektor v(f) eines Objekts und dem Merkmalsvektor v(bdc) des Zentroids des am besten löschbaren Clusters. Die Schätzfunktion del(f) wird dann verwendet, um Objekte in löschbar/nicht löschbar zu klassifizieren.

Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.

Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) beinhalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.

Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder gehobene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Glasfaserkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.

Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.

Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.

Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.

Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.

Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.

ZITATE ENTHALTEN IN DER BESCHREIBUNG

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.

Zitierte Patentliteratur

US 2016/0004730 A1 [0057]

Claims

Verfahren zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern, wobei das Verfahren aufweist: Bereitstellen von Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten; Feststellen für jedes Datenobjekt des Satzes von Datenobjekten einer kombinierten Eigenschaft, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist; Feststellen von zeitabhängigen Eigenschaften des Satzes von Datenobjekten, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat; Definieren von mindestens zwei Metriken, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird; Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus; und Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist.
Verfahren nach Anspruch 1, wobei die erste Metrik eines bestimmten Clusters eine Kombination aus Objektmetriken von Datenobjekten des Clusters ist, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt.
Verfahren nach Anspruch 2, wobei die Objektmetrik eines bestimmten Datenobjekts eine gewichtete Summe der Aktivität von Benutzern des bestimmten Datenobjekts, multipliziert mit der Aktivität des bestimmten Datenobjekts aufweist, wobei die Aktivität des Benutzers beruhend auf dem Ergebnis eines Vergleichs der aktuellen Uhrzeit mit dem dem Benutzer zugeordneten Start- und Endzeitpunkt festgestellt wird, wobei die Aktivität des bestimmten Datenobjekts beruhend auf dem Ergebnis eines Vergleichs des letzten Änderungszeitpunkts oder des Erstellungsdatums des bestimmten Datenobjekts mit dem einem Benutzer des bestimmten Datenobjekts zugeordneten Start- und Endzeitpunkt festgestellt wird.
Verfahren nach Anspruch 2, wobei die erste Metrik der Mittelwert der Objektmetriken der Datenobjekte eines Clusters ist.
Verfahren nach Anspruch 3, wobei die Summe über Benutzer derjenigen Benutzer gebildet wird, deren vorher festgelegter Grad des Zugriffs auf das bestimmte Datenobjekt höher als ein vorher festgelegter Schwellenwert ist.
Verfahren nach Anspruch 1 wobei die zweite Metrik ein Hinweis auf die Anzahl der Datenobjekte und die Anzahl der Eigenschaftswerte der Datenobjekte eines Clusters ist.
Verfahren nach Anspruch 1, wobei die Benutzereigenschaft aus der Gruppe ausgewählt wird, die aus dem Grad der Eigentümerschaft des Benutzers eines Datenobjekts und dem dem Benutzer zugeordneten Startzeitpunkt und Endzeitpunkt besteht.
Verfahren nach Anspruch 1, wobei die Datenobjekt-Eigenschaft aus der Gruppe ausgewählt wird, die aus einem Erstellungsdatum des Datenobjekts, dem letzten Änderungszeitpunkt des Datenobjekts, dem Typ des Datenobjekts und dem Speicherort des Datenobjekts besteht.
Verfahren nach Anspruch 1, wobei der Clustering-Algorithmus ein hierarchischer Clustering-Algorithmus ist und wobei das am besten löschbare Cluster ein Paretooptimales Cluster unter den Metriken ist.
Verfahren nach Anspruch 1, das des Weiteren aufweist: Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt eines weiteren Satzes von Datenobjekten löschbar oder nicht löschbar ist.
Verfahren nach Anspruch 10, wobei ein weiterer Satz von Datenobjekten in einem weiteren Computersystem gespeichert wird.
Verfahren nach Anspruch 10, wobei ein weiterer Satz von Datenobjekten dem einen oder den mehreren Benutzern oder anderen Benutzern gehört.
Verfahren nach Anspruch 1, wobei mindestens ein Teil der kombinierten Eigenschaften aus dem Satz von kombinierten Eigenschaften zufällig ausgewählt wird.
Verfahren nach Anspruch 1, wobei das am besten löschbare Cluster das Cluster ist, das den höchsten Wert der ersten Metrik und den niedrigsten Wert der zweiten Metrik hat.
Verfahren nach Anspruch 1, das des Weiteren aufweist: Erzeugen eines Satzes von Vektoren, die die jeweiligen kombinierten Eigenschaften aufweisen, wobei das Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus das Eingeben von mindestens einem Teil des Satzes von Vektoren in den Clustering-Algorithmus aufweist.
Computersystem zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern, das aufweist: einen oder mehrere Prozessoren, einen oder mehrere durch einen Computer lesbare Hauptspeicher, ein oder mehrere durch einen Computer lesbare physische Speichermedien sowie auf mindestens einem des einen oder der mehreren physischen Speichermedien gespeicherte Programmanweisungen zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren über mindestens einen des einen oder der mehreren Hauptspeicher, wobei das Computersystem in der Lage ist, ein Verfahren durchzuführen, das aufweist: Bereitstellen von Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten; Feststellen für jedes Datenobjekt des Satzes von Datenobjekten einer kombinierten Eigenschaft, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist; Feststellen von zeitabhängigen Eigenschaften des Satzes von Datenobjekten, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat; Definieren von mindestens zwei Metriken, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird; Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus; und Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist.
Computersystem nach Anspruch 16, wobei die erste Metrik eines bestimmten Clusters eine Kombination aus Objektmetriken von Datenobjekten des Clusters ist, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt.
Computersystem nach Anspruch 16, wobei die Objektmetrik eines bestimmten Datenobjekts eine gewichtete Summe der Aktivität von Benutzern des bestimmten Datenobjekts, multipliziert mit der Aktivität des bestimmten Datenobjekts aufweist, wobei die Aktivität des Benutzers beruhend auf dem Ergebnis eines Vergleichs der aktuellen Uhrzeit mit dem dem Benutzer zugeordneten Start- und Endzeitpunkt festgestellt wird, wobei die Aktivität des bestimmten Datenobjekts beruhend auf dem Ergebnis eines Vergleichs des letzten Änderungszeitpunkts oder des Erstellungsdatums des bestimmten Datenobjekts mit dem einem Benutzer des bestimmten Datenobjekts zugeordneten Start- und Endzeitpunkt festgestellt wird.
Computerprogrammprodukt zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern, das aufweist: ein oder mehrere durch einen Computer lesbare Speichermedien und Programmanweisungen, die auf mindestens einem des einen oder der mehreren physischen Speichermedien gespeichert sind, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, wobei die Programmanweisungen aufweisen: Programmanweisungen, um Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten bereitzustellen; Programmanweisungen, um für jedes Datenobjekt des Satzes von Datenobjekten eine kombinierte Eigenschaft festzustellen, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist; Programmanweisungen, um zeitabhängige Eigenschaften des Satzes von Datenobjekten festzustellen, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat; Programmanweisungen, um mindestens zwei Metriken zu definieren, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird; Programmanweisungen, um mindestens einen Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus einzugeben; und Programmanweisungen zur Verwendung des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist.
Computerprogrammprodukt nach Anspruch 19, wobei die erste Metrik eines bestimmten Clusters eine Kombination aus Objektmetriken von Datenobjekten des Clusters ist, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt.
Computerprogramm, das Programmcode-Mittel aufweist, die so ausgelegt sind, dass sie das Verfahren nach einem der Ansprüche 1 bis 15 durchführen, wenn das Programm auf einem Computer ausgeführt wird.