DE112018001290T5 - Verfahren zum Schätzen der Löschbarkeit von Datenobjekten - Google Patents
Verfahren zum Schätzen der Löschbarkeit von Datenobjekten Download PDFInfo
- Publication number
- DE112018001290T5 DE112018001290T5 DE112018001290.5T DE112018001290T DE112018001290T5 DE 112018001290 T5 DE112018001290 T5 DE 112018001290T5 DE 112018001290 T DE112018001290 T DE 112018001290T DE 112018001290 T5 DE112018001290 T5 DE 112018001290T5
- Authority
- DE
- Germany
- Prior art keywords
- data object
- cluster
- data
- data objects
- properties
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 230000036962 time dependent Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 12
- 101150096712 metap1 gene Proteins 0.000 description 9
- 238000013442 quality metrics Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 241001136792 Alle Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Abstract
Ein Verfahren, ein Computersystem und ein Computerprogrammprodukt zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern wird bereitgestellt. Die vorliegende Erfindung kann das Bereitstellen von Datenobjekt-Eigenschaften und Benutzereigenschaften des Satzes von Datenobjekten beinhalten. Die vorliegende Erfindung kann das Feststellen einer kombinierten Eigenschaft der Datenobjekt-Eigenschaften und der Benutzereigenschaften beinhalten. Die vorliegende Erfindung kann das Feststellen von zeitabhängigen Eigenschaften und das Bestimmen von mindestens zwei Metriken beinhalten, wobei eine erste Metrik die Löschbarkeit eines Clusters angibt und eine zweite Metrik die Qualität des Clusters angibt und wobei die erste Metrik unter Verwendung von zeitabhängigen Eigenschaften des Clusters bestimmt wird. Die vorliegende Erfindung kann das Eingeben des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus und das Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen, beinhalten, um ein am besten löschbares Cluster zu ermitteln, um festzustellen, ob ein Datenobjekt löschbar ist.
Description
- HINTERGRUND
- Die vorliegende Erfindung betrifft das Gebiet der digitalen Computersysteme und insbesondere ein Verfahren zur Verarbeitung eines Satzes von Datenobjekten von einem oder mehreren Benutzern.
- Unternehmen häufen enorme Mengen an Datenobjekten an. Sich dieser nicht mehr geschäftsrelevanten, rechtlich relevanten oder für beliebige andere wichtige Zwecke relevanten Objekte auf eine gerechtfertigte, erklärbare Weise zu entledigen, ist wünschenswert. Alternativ können Datenobjekte für eine lokale Nutzungsgemeinschaft, wie beispielsweise bestimmte rechtliche Dokumente, erhalten werden. Die überwiegende Zahl von allgemein zugänglichen Dokumenten in den heutigen Unternehmen unterliegt einem mehr oder wenigen rigiden, hierarchisch geordneten Aufbewahrungsschema, bei dem beispielsweise die Ausführung, Kontrolle und Bewertung üblicherweise beträchtliche Mitarbeiter- sowie Infrastrukturressourcen erforderlich macht.
- KURZDARSTELLUNG
- Ausführungsformen der vorliegenden Erfindung offenbaren ein Verfahren, ein Computersystem und ein Computerprogrammprodukt zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern. Die vorliegende Erfindung kann das Bereitstellen von Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten beinhalten. Die vorliegende Erfindung kann auch das Feststellen für jedes Datenobjekt des Satzes von Datenobjekten einer kombinierten Eigenschaft beinhalten, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist. Die vorliegende Erfindung kann dann das Feststellen von zeitabhängigen Eigenschaften des Satzes von Datenobjekten beinhalten, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat. Die vorliegende Erfindung kann des Weiteren das Definieren von mindestens zwei Metriken beinhalten, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird. Die vorliegende Erfindung kann auch das Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus beinhalten. Die vorliegende Erfindung kann dann das Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; das Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist, beinhalten.
- Verschiedene Ausführungsformen stellen ein Verfahren zur Verarbeitung eines Satzes von Datenobjekten von einem oder mehreren Benutzern, ein Computersystem und ein Computerprogrammprodukt bereit, die durch den Erfindungsgegenstand der unabhängigen Ansprüche beschrieben sind. Vorteilhafte Ausführungsformen sind in den abhängigen Ansprüchen beschrieben. Ausführungsformen der vorliegenden Erfindung können frei miteinander kombiniert werden, sofern sie sich nicht gegenseitig ausschließen. In einem Aspekt betrifft die Erfindung ein Verfahren zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern. In einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt, das ein durch einen Computer lesbares Speichermedium mit damit realisiertem, durch einen Computer lesbaren Programmcode aufweist, wobei der durch einen Computer lesbare Programmcode so konfiguriert ist, dass er alle Schritte des Verfahrens gemäß vorhergehenden Ausführungsformen durchführt. In einem weiteren Aspekt betrifft die Erfindung ein Computersystem zur Verarbeitung eines in dem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern.
- Figurenliste
- Diese und weitere Merkmale und Vorteile der vorliegenden Erfindung gehen aus der folgenden ausführlichen Beschreibung von veranschaulichenden Ausführungsformen der Erfindung hervor, die in Verbindung mit den beigefügten Zeichnungen gelesen werden soll. Die verschiedenen Merkmale der Zeichnungen sind nicht maßstabsgetreu, da die Veranschaulichungen dem Fachmann das Verständnis der Erfindung in Verbindung mit der ausführlichen Beschreibung durch Übersichtlichkeit erleichtern sollen. Die folgenden Ausführungsformen der Erfindung werden unter Bezugnahme auf die Zeichnungen beispielhalber ausführlicher erklärt, bei denen:
-
1 ein computergestütztes System veranschaulicht, das zur Durchführung von einem oder mehreren Verfahrensschritten geeignet ist, die in einer bevorzugten Ausführungsform der vorliegenden Offenbarung eingeschlossen sind. -
2 ist ein Ablaufplan eines Verfahrens zur Verarbeitung eines Satzes von Datenobjekten von einem oder mehreren Benutzern gemäß mindestens einer einzelnen Ausführungsform. -
3 ist ein Ablaufplan eines beispielhaften Verfahrens zum Schätzen der Löschbarkeit von vorher festgelegten Dateien gemäß mindestens einer einzelnen Ausführungsform. -
4 ist ein Ablaufplan eines Verfahrens zum Löschen von Datenobjekten gemäß mindestens einer einzelnen Ausführungsform. - AUSFÜHRLICHE BESCHREIBUNG
- Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung erfolgen zum Zweck der Veranschaulichung, sollen jedoch nicht erschöpfend oder auf die offenbarten Ausführungsformen beschränkt sein. Viele Änderungen und Varianten sind für den Fachmann erkennbar, ohne vom Umfang und Wesen der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt befindlicher Technologien am besten zu erklären bzw. um anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
- Der Begriff „Benutzer“ bezieht sich auf eine Entität, z.B. eine Einzelperson, einen Computer, ein Projekt oder eine auf einem Computer ausgeführte Anwendung. Der Benutzer kann durch ein oder mehrere Attribute definiert werden, welche die Benutzereigenschaften des Benutzers angeben. Die Benutzereigenschaft eines Benutzers kann zum Beispiel der Startzeitpunkt und der Endzeitpunkt des Projekts oder der Startzeitpunkt und der Endzeitpunkt des Kontos des Benutzers in dem Computersystem sein. Der Startzeitpunkt und der Endzeitpunkt des Projekts können zum Beispiel je Datenobjekt des Projekts definiert werden, so dass der Startzeitpunkt und der Endzeitpunkt des Projekts in Bezug auf ein bestimmtes Datenobjekt der Startzeitpunkt und der Endzeitpunkt eines Benutzers ist, der an dem Projekt beteiligt ist und dem das bestimmte Objekt gehört. Zum Beispiel gehört das Datenobjekt nicht mehr zu dem Projekt, wenn der Benutzer das Projekt verlässt, folglich ist der Endzeitpunkt der Zeitpunkt, zu dem der Benutzer das Projekt verlassen hat, und der Startzeitpunkt ist der Zeitpunkt, zu dem der Benutzer das Projekt gestartet hat.
- Bei der zweiten Metrik, die auch als eine Qualitätsmetrik bezeichnet wird, kann es sich um eine die Anzahl der Eigenschaftswerte und Datenobjekte eines Clusters beschreibende Metrik handeln. Die zweite Metrik kann zum Beispiel beschreibend sein oder unter Verwendung der Anzahl der einzelnen Eigenschaftswerte oder der Anzahl der verschiedenen Klassen der Eigenschaftswerte definiert werden. Eine Klasse von Eigenschaftswerten einer bestimmten Eigenschaft kann zum Beispiel definiert werden, indem der Bereich der Eigenschaftswerte in Intervalle aufgeteilt wird, wobei die Klasse einem Intervall entspricht (wenn die Eigenschaft z.B. das Alter ist, kann zu den Klassen eine Klasse „mittleres Alter“ gehören). Zum Beispiel kann die zweite Metrik so definiert werden, dass, je höher sie für ein bestimmtes Cluster ist, die Qualität dieses Clusters umso geringer ist. Alternativ ist die Qualität des bestimmten Clusters umso höher, je niedriger die zweite Metrik für ein bestimmtes Cluster ist. Die Qualitätsmetrik wird als ein Mittel zur Verallgemeinerung der gesamten, für alle Datenobjekte vorhandenen Informationen verwendet. Zum Beispiel kann die zweite Metrik eine Kombination aus der Spärlichkeit von Objekteigenschaftswerten und der Anzahl der Datenobjekte, die sie anwendet, sein. Die zweite Metrik kann zum Beispiel so definiert werden, dass, je höher der Wert der zweiten Metrik ist, die Qualität des Clusters umso geringer ist. Zum Beispiel kann die Qualitätsmetrik eines bestimmten Clusters die Anzahl der einzelnen Attributwerte oder Eigenschaftswerte der Datenobjekte des bestimmten Clusters, geteilt durch die Anzahl der Datenobjekte in dem bestimmten Cluster, sein. In einem weiteren Beispiel kann die Qualitätsmetrik eines bestimmten Clusters die Anzahl der Klassen von Attributwerten der Datenobjekte des bestimmten Clusters, geteilt durch die Anzahl der Datenobjekte in dem bestimmten Cluster, sein. Je höher dieses Verhältnis für ein Cluster ist, desto geringer ist zum Beispiel die Qualität dieses Clusters. Die Qualitätsmetrik kann unter Verwendung der Anzahl der Datenobjekte und der Beschreibung eines bestimmten Clusters definiert werden. Die ersten Metriken oder die zweiten Metriken können zum Beispiel normalisiert (z.B. zwischen 0 und 1) werden. Zusätzlich kann zum Beispiel ein Vektor des Satzes von Vektoren ein Array wie beispielsweise ein eindimensionales Array sein.
- Die Datenobjekt-Eigenschaft („Objekteigenschaft“) eines Datenobjekts kann Werte enthalten, die ein Hinweis auf das Datenobjekt sind oder das Datenobjekt beschreiben. Die Benutzereigenschaft eines Benutzers kann Werte enthalten, die ein Hinweis auf den Benutzer sind oder den Benutzer beschreiben. In einem Beispiel können zu den Datenobjekt-Eigenschaften eines bestimmten Datenobjekts eine oder mehrere Eigenschaften gehören, die benutzerdefiniert sind (z.B. werden die eine oder die mehreren Eigenschaften von dem Computersystem als Eingaben empfangen). In einem weiteren Beispiel können zu den Benutzereigenschaften eines bestimmten Benutzers eine oder mehrere Eigenschaften gehören, die benutzerdefiniert sind (z.B. werden die eine oder die mehreren Eigenschaften des bestimmten Benutzers von dem Computersystem als Eingaben empfangen).
- Der Clustering-Algorithmus, verglichen mit dem Pseudocode des nachstehenden Clustering-Algorithmus, ist so konfiguriert, dass er unter Verwendung des Euklidischen Abstands zwischen Datenobjekten oder zwischen Clustern Cluster bildet und die Cluster beruhend auf den Werten der Metriken einstuft, um das am besten löschbare Cluster zu finden. Der Clustering-Algorithmus kann eine statistische Datenanalyse wie beispielsweise Maschinelles Lernen (machine learning) und Mustererkennung einschließen. Der Clustering-Algorithmus kann eine Machine-Learning-Technik verwenden. Die Machine-Learning-Technik kann so konfiguriert werden, dass sie ein optimales Ergebnis (z.B. ein löschbares Cluster) ermittelt, indem sie die Werte der Metriken beachtet. Die Machine-Learning-Techniken können DateiMetadaten, Speicherdaten oder Organisationsdaten verwenden, wobei die Letzteren den Governance-Kontext eines Datenobjekts beschreiben. Der Clustering-Algorithmus kann als ein Optimierungsproblem mit mehreren Zielfunktionen formuliert werden, das mindestens zwei Zielfunktionen einschließt, damit die beiden Metriken gleichzeitig optimiert werden können. Zum Beispiel können die Zielfunktionen darin bestehen, die beiden Metriken zu maximieren (z.B. maximiere die Löschbarkeit und maximiere die Qualität des Clusters).
- Der Clustering-Algorithmus kann eine Schätzfunktion für die Wahrscheinlichkeit, dass ein Datenobjekt löschbar ist oder erhalten werden muss, bereitstellen. Diese Funktion kann als eine Erhaltbarkeitsfunktion bezeichnet werden. Das vorliegende Verfahren kann inhärent probabilistisch sein, da es eine Schätzung für die Wahrscheinlichkeit, dass ein Datenobjekt erhalten oder gelöscht werden sollte, vorsieht. Eine Minimierung der Fehlerwahrscheinlichkeit, die einer jeden solchen Schätzung innewohnt, kann durch die Verwendung von sehr großen Lernmustern (z.B. Teil des Vektorsatzes) erreicht werden. Die Erhaltbarkeit kann von einer Richtlinien-Governance abhängen, wobei eine Richtlinie ein deontisches Objekt ist, dessen Anwendung in einer hierarchisch geordneten Weise darauf abzielt, Zielobjekte in einen bestimmten Zustand zu versetzen, wobei das Unvermögen, Zielobjekte in einen bestimmten Zustand zu versetzen, sanktioniert wird. Anstatt auf den Ausführungspfad von Richtlinien in einer hierarchisch geordneten Weise zu schauen, kann das vorliegende Verfahren darauf schauen, welche Governance-Objekte der unteren Ebene in einem Unternehmen vorhanden sind und wie diese mit den Richtlinien der höheren Ebene zusammenhängen. Die Berechnung der Erhaltbarkeit folgt einem Bottom-up-Ansatz. Bei dem vorliegenden Verfahren kann die Erhaltbarkeit nicht über das am besten erhaltbare Cluster definiert werden, sondern über ein Cluster, das sowohl der Erhaltbarkeit als auch der Cluster-Qualität gerecht wird. Das Erhaltbarkeitsmodell kann Daten im Bereich von Hunderten von Millionen von Datenobjekten Rechnung tragen.
- Die erste Metrik wird unter Verwendung von mindestens den zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt. Zum Beispiel kann die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters sowie weiterer Eigenschafen wie beispielsweise der Eigenschaft „Grad der Eigentümerschaft“ bestimmt werden.
- Das vorliegende Verfahren kann den Vorteil haben, dass es ein zuverlässiges und robustes Verfahren für das Löschen von Datenobjekten beruhend auf exakten Kriterien bereitstellt, die sowohl die Datenobjekte als auch die Benutzer der Datenobjekte einschließen. Das Verfahren kann eine wahrscheinliche Löschfunktion durch das Testen von Daten beruhend auf Wahrscheinlichkeitsberechnungen berechnen, indem es Dateivektoren für die Verbindung aus Trainings- und Testdaten erzeugt. Dies kann den optimalen Satz von zu löschenden Datenobjekten bereitstellen und somit vermeiden, dass Datenobjekte gelöscht werden, die immer noch verwendbar sind oder immer noch gebraucht werden.
- Gemäß einer Ausführungsform beinhaltet das Verfahren des Weiteren das Erzeugen eines Satzes von Vektoren, die die jeweiligen kombinierten Eigenschaften aufweisen, wobei das Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus das Eingeben von mindestens einem Teil des Satzes von Vektoren in den Clustering-Algorithmus beinhaltet. Die erste Metrik eines bestimmten Clusters ist eine Kombination aus Objektmetriken von Datenobjekten des Clusters, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt. Diese Ausführungsform kann eine exakte Clustermetrik bereitstellen, die zu einem optimaleren Satz von zu löschenden Datenobjekten führen kann.
- Zur Objektmetrik eines bestimmten Datenobjekts gehört eine gewichtete Summe der Aktivität von Benutzern des bestimmten Datenobjekts, multipliziert mit der Aktivität des bestimmten Datenobjekts. Die Aktivität des Benutzers wird beruhend auf dem Ergebnis eines Vergleichs der aktuellen Uhrzeit mit dem dem Benutzer zugeordneten Startzeitpunkt und Endzeitpunkt festgestellt. Die Aktivität des bestimmten Datenobjekts wird beruhend auf dem Ergebnis eines Vergleichs des letzten Änderungszeitpunkts oder des Erstellungsdatums des bestimmten Datenobjekts mit dem einem Benutzer des bestimmten Datenobjekts zugeordneten Startzeitpunkt und Endzeitpunkt festgestellt. Diese Ausführungsform kann eine wirksame Kombination aus Benutzer- und Objekteigenschaften für die Definition der Metriken bereitstellen.
- Die Summe wird über Benutzer derjenigen Benutzer gebildet, deren vorher festgelegter Grad der Eigentümerschaft an dem bestimmten Datenobjekt höher als ein vorher festgelegter Schwellenwert ist. Dies kann die Ermittlung des Satzes von zu löschenden Datenobjekten weiter optimieren. Der Grad der Eigentümerschaft kann zum Beispiel die Zugriffsberechtigung oder die Ebene des Zugriffs eines Benutzers auf ein Datenobjekt sein. Dies kann zum Beispiel in der Zugriffssteuerungsliste (ACL, access control list) des Datenobjekts angegeben sein.
- Die erste Metrik ist der Mittelwert der Objektmetriken der Datenobjekte eines Clusters. In einem weiteren Beispiel enthält die erste Metrik die Summe der Objektmetriken der Datenobjekte eines Clusters. In einem weiteren Beispiel kann die erste Metrik auf der Aktualität von Objekten oder dem Alter von Objekten beruhen. Die erste Metrik kann zum Beispiel ein normalisierter Wert (z.B. im Bereich [0, 1]) sein.
- Die zweite Metrik kann ein Hinweis auf die Anzahl der Datenobjekte und die Anzahl der Eigenschaftswerte der Datenobjekte eines Clusters sein. Die Anzahl der Eigenschaftswerte kann die Anzahl der Werte von verschiedenen Eigenschaften sein. Die zweite Metrik kann ein Hinweis auf die Spärlichkeit von Datenobjekt-Eigenschaften bei der Anzahl der Datenobjekte, die sie anwendet, sein. Falls Datenobjekte zum Beispiel über Eigenschaften oder Attribute wie etwa Alter oder Abteilung verfügen, können zu den einzelnen Eigenschaftswerten einzelne Werte des Alters oder der Abteilung gehören.
- Die Benutzereigenschaft kann einen Grad der Eigentümerschaft des Benutzers an einer Datei und den dem Benutzer zugeordneten Startzeitpunkt und Endzeitpunkt beinhalten. Der Grad der Eigentümerschaft des Benutzers an einer Datei kann die richtige Ebene des Zugriffs des Benutzers auf die Datei (z.B. Administrator-Benutzer oder Benutzer mit Lesezugriff) beinhalten. Der dem Benutzer zugeordnete Startzeitpunkt und Endzeitpunkt kann zum Beispiel der Startzeitpunkt und der Endzeitpunkt des Benutzers, bei dem es sich um ein Projekt handelt, sein. Die Objekteigenschaft eines Datenobjekts kann zum Beispiel ein Erstellungsdatum des Datenobjekts, einen letzten Änderungszeitpunkt des Datenobjekts, die Größe des Datenobjekts, den Typ des Datenobjekts, das das Datenobjekt einbettende Dateisystem, eine Angabe, dass das Datenobjekt binär ist oder nicht, oder einen Speicherort des Datenobjekts beinhalten.
- Der Clustering-Algorithmus ist ein hierarchischer Clustering-Algorithmus, wobei das am besten löschbare Cluster das Pareto-optimale Cluster unter den Metriken ist. Bei Verwendung des hierarchischen Clustering-Algorithmus sind gegebenenfalls keine Apriori-Informationen über die Anzahl der benötigten Cluster erforderlich.
- Das Verfahren beinhaltet des Weiteren die Verwendung des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt eines weiteren Satzes von Datenobjekten löschbar oder nicht löschbar ist. Zum Beispiel kann jedes Datenobjekt des Satzes von Datenobjekten mit dem am besten löschbaren Cluster verglichen werden, indem der Abstand zwischen dem Datenobjekt und einem ausgewählten Punkt des am besten löschbaren Clusters berechnet wird. Der ausgewählte Punkt kann zum Beispiel der Zentroid des am besten löschbaren Clusters sein.
- Ein weiterer Satz von Datenobjekten kann in einem anderen Computersystem gespeichert werden. Der weitere Satz von Datenobjekten gehört einem oder mehreren Benutzern. Diese Ausführungsformen können insbesondere in dem Fall vorteilhaft sein, in dem Datenbanken dieselbe Art von Daten aufweisen. Mindestens ein Teil der Vektoren kann aus dem Satz von Vektoren zufällig ausgewählt werden. Dadurch kann ein systematischer Fehler bei der Ermittlung des am besten löschbaren Clusters vermieden werden. Bei dem am besten löschbaren Cluster kann es sich um das Cluster handeln, das über ein Paar von Werten der ersten und der zweiten Metrik verfügt, die sowohl die Zielfunktion der hohen Löschbarkeit als auch der hohen Qualität erfüllen. Das Wertepaar der ersten und der zweiten Metrik kann man erhalten, wenn keine der Zielfunktionen im Wert verbessert werden kann, ohne die anderen Zielfunktionswerte zu verschlechtern. Die Lösung, die dieses Paar aufweist, kann Pareto-optimal oder Pareto-effizient sein.
- Das am besten löschbare Cluster kann das Cluster mit dem höchsten Wert der ersten Metrik und dem höchsten Wert der zweiten Metrik unter von dem Clustering-Algorithmus definierten Clustern sein. Anders ausgedrückt, man kann die höchstmögliche Kombination aus Löschbarkeit und Qualität erhalten, wobei Löschbarkeit die Qualität überwiegt.
-
1 stellt ein allgemeines computergestütztes System dar, das für die Durchführung von Verfahrensschritten, die in der Offenbarung eingeschlossen sind, geeignet ist. - Es dürfte sich verstehen, dass die hierin beschriebenen Verfahren mindestens teilweise nicht interaktiv sind und mittels computergestützter Systeme wie beispielsweise Server oder eingebetteter Systeme automatisiert werden. In beispielhaften Ausführungsformen können die hierin beschriebenen Verfahren in einem (teilweise) interaktiven System durchgeführt werden. Diese Verfahren können des Weiteren in Software
112 ,122 (darunter Firmware122 ), Hardware (Prozessor)105 oder einer Kombination daraus ausgeführt sein. In beispielhaften Ausführungsformen sind die hierin beschriebenen Verfahren in Software, als ein ausführbares Programm, ausgeführt und werden durch einen digitalen Spezial- oder Universalcomputer, wie zum Beispiel einen Personal Computer, eine Workstation, einen Minicomputer oder einen Mainframe-Computer durchgeführt. Das allgemeinste System100 enthält daher einen Universalcomputer101 . - In Bezug auf die Hardware-Architektur, die in
1 gezeigt ist, enthält der Computer101 in beispielhaften Ausführungsformen einen Prozessor105 , einen Speicher (Hauptspeicher)110 , der mit einem Hauptspeichercontroller115 verbunden ist, und eine oder mehrere Ein- und/oder Ausgabe-(E/A-)Einheiten (oder Peripheriegeräte) 10, 145, die durch Übertragung über einen lokalen Ein-/Ausgabecontroller135 verbunden sind. Bei dem Ein-/Ausgabecontroller135 kann es sich, ohne darauf beschränkt zu sein, um einen oder mehrere Busse oder andere drahtgebundene oder drahtlose Verbindungen, die in der Technik bekannt sind, handeln. Der Ein-/Ausgabecontroller135 kann über zusätzliche Elemente verfügen, die aus Gründen der Einfachheit weggelassen wurden, wie zum Beispiel Controller, Pufferspeicher (Cachespeicher), Treiber, Verstärker und Empfänger, um Übertragungen zu ermöglichen. Des Weiteren kann die lokale Schnittstelle Adress-, Steuer- und/oder Datenverbindungen enthalten, um entsprechende Übertragungen zwischen den vorstehend erwähnten Komponenten zu ermöglichen. Wie hierin beschrieben ist, kann zu den E/A-Einheiten 10, 145 im Allgemeinen eine beliebige, in der Technik bekannte allgemeine Verschlüsselungskarte oder Smartcard gehören. - Der Prozessor
105 ist eine Hardware-Einheit zur Ausführung von Software, insbesondere der im Hauptspeicher110 gespeicherten Software. Der Prozessor105 kann ein beliebiger kundenspezifisch hergestellter oder handelsüblicher Prozessor, eine zentrale Verarbeitungseinheit (CPU), ein Hilfsprozessor unter mehreren Prozessoren, die zu dem Computer101 gehören, ein halbleiterbasierter Mikroprozessor (in Form eines Mikrochips oder eines Chipsatzes), ein Makroprozessor oder allgemein eine beliebige Einheit zur Ausführung von Softwareanweisungen sein. - Der Hauptspeicher
110 kann ein beliebiges oder eine Kombination aus flüchtigen Hauptspeicherelementen (z.B. einen Direktzugriffsspeicher (RAM, wie beispielsweise einen DRAM, SRAM, SDRAM usw.)) und nicht flüchtigen Hauptspeicherelementen (z.B. ROM, einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM), einen elektronisch löschbaren, programmierbaren Nur-Lese Speicher (EEPROM), einen programmierbaren Nur-Lese-Speicher (PROM)) enthalten. Es sei angemerkt, dass der Hauptspeicher110 eine verteilte Architektur haben kann, bei der verschiedene Komponenten räumlich voneinander entfernt sind, der Prozessor105 jedoch auf sie zugreifen kann. - Zu der Software im Hauptspeicher
110 können ein oder mehrere gesonderte Programme gehören, von denen jedes eine geordnete Liste von ausführbaren Anweisungen zur Ausführung von logischen Funktionen, vor allem Funktionen, die in Ausführungsformen dieser Erfindung eingeschlossen sind, enthalten kann. In dem Beispiel von1 enthält die Software im Hauptspeicher110 Anweisungen oder Software112 , z.B. Anweisungen zur Verwaltung von Datenbanken wie beispielsweise eines Datenbankverwaltungssystems. - Zu der Software im Hauptspeicher
110 muss üblicherweise auch ein geeignetes Betriebssystem (OS, operating system) 111 gehören. Das OS111 steuert im Wesentlichen die Ausführung von weiteren Computerprogrammen wie möglicherweise etwa der Software112 zur Durchführung von Verfahren, die hierin beschrieben sind. - Die hierin beschriebenen Verfahren können in Form von einem Quellenprogramm oder Software
112 , einem ausführbaren Programm oder Software112 (Objekt-Code), einem Skript oder einer beliebigen anderen Entität, die einen Satz von auszuführenden Anweisungen112 aufweist, vorliegen. Im Falle eines Quellenprogramms muss das Programm mittels eines Compilers, Assemblers, Interpreters oder dergleichen, die im Hauptspeicher110 enthalten oder auch nicht enthalten sein können, übersetzt werden, damit es in Verbindung mit dem OS111 ordnungsgemäß arbeitet. Darüber hinaus können die Verfahren als eine objektorientierte Programmiersprache, die Klassen von Daten und Verfahren hat, oder eine Prozedur-Programmiersprache, die über Routinen, Unterroutinen und/oder Funktionen verfügt, geschrieben sein. - In beispielhaften Ausführungsformen können eine herkömmliche Tastatur
150 und eine Maus155 mit dem Ein-/Ausgabecontroller135 verbunden sein. Zu weiteren Ausgabeeinheiten wie beispielsweise den E/A-Einheiten 145 können Eingabeeinheiten gehören, zum Beispiel, ohne darauf beschränkt zu sein, ein Drucker, ein Scanner, ein Mikrofon und dergleichen. Schließlich können zu den E/A-Einheiten 10, 145 des Weiteren Einheiten gehören, die sowohl Eingaben als auch Ausgaben übertragen, zum Beispiel, ohne darauf beschränkt zu sein, eine Netzschnittstellenkarte (NIC, network interface card) oder ein Modulator/Demodulator (für den Zugriff auf andere Dateien, Einheiten, Systeme oder ein Netzwerk), ein Hochfrequenz-(HF-) oder ein anderer Sendeempfänger, eine Telefonschnittstelle, eine Brücke, ein Leitwegrechner und dergleichen. Bei den E/A-Einheiten 10, 145 kann es sich um eine beliebige, in der Technik bekannte allgemeine Verschlüsselungskarte oder Smartcard handeln. Zu dem System100 kann des Weiteren ein Bildschirmcontroller125 gehören, der mit einem Bildschirm130 verbunden ist. In beispielhaften Ausführungsformen kann das System100 des Weiteren eine Netzschnittstelle zur Anbindung an ein Netzwerk165 enthalten. Das Netzwerk165 kann ein IP-basiertes Netzwerk für einen Datenaustausch zwischen dem Computer101 und einem beliebigen externen Server, Client und dergleichen über eine Breitbandverbindung sein. Das Netzwerk165 sendet und empfängt Daten zwischen dem Computer101 und externen Systemen30 , die eingebunden werden können, um einen Teil oder alle Schritte der hierin erörterten Verfahren durchzuführen. In beispielhaften Ausführungsformen kann das Netzwerk165 ein verwaltetes IP-Netzwerk mit einem Dienstanbieter als Administrator sein. Das Netzwerk165 kann drahtlos ausgeführt sein, z.B. unter Verwendung von Drahtlosprotokollen und - technologien, wie zum Beispiel WiFi, WiMax usw. Das Netzwerk165 kann auch ein paketvermitteltes Netzwerk wie zum Beispiel ein lokales Netzwerk, ein Weitverkehrsnetz, ein Hochgeschwindigkeitsnetz, ein Internet-Netzwerk oder eine andere ähnliche Art von Netzwerkumgebung sein. Das Netzwerk165 kann ein festes drahtloses Netzwerk, ein drahtloses lokales Netzwerk (LAN), ein drahtloses Weitverkehrsnetz (WAN), ein Personal Area Network (PAN), ein virtuelles privates Netz (VPN), ein Intranet oder ein anderes geeignetes Netzwerksystem sein und enthält Technik für den Empfang und das Senden von Signalen. - Falls der Computer
101 ein PC, eine Workstation, eine intelligente Einheit oder dergleichen ist, kann zu der Software im Hauptspeicher110 des Weiteren ein grundlegendes Eingabe-/Ausgabesystem (BIOS, basic input output system) gehören. Das BIOS ist ein Satz von wichtigen Software-Routinen, die Hardware beim Start initialisieren und testen, das OS111 starten und die Übertragung von Daten zwischen den Hardware-Einheiten unterstützen. Das BIOS ist im ROM gespeichert, so dass das BIOS ausgeführt werden kann, wenn der Computer101 aktiviert wird. - Wenn der Computer
101 in Betrieb ist, wird der Prozessor105 so konfiguriert, dass er die im Hauptspeicher110 gespeicherte Software112 ausführt, Daten in den und aus dem Hauptspeicher110 überträgt und allgemein Operationen des Computers101 gemäß der Software steuert. Die hierin beschriebenen Verfahren und das OS111 , ganz oder teilweise, üblicherweise aber das Letztere, werden durch den Prozessor105 gelesen, möglicherweise in dem Prozessor105 zwischengespeichert und dann ausgeführt. - Wenn die hierein beschriebenen Systeme und Verfahren in Software
112 ausgeführt sind, wie in1 gezeigt ist, können die Verfahren auf einem beliebigen durch einen Computer lesbaren Datenträger, wie beispielsweise dem Speicher120 , zur Verwendung durch oder in Verbindung mit einem beliebigen computerbezogenen System oder Verfahren gespeichert werden. Zum Speicher120 kann ein Plattenspeicher wie beispielsweise ein HDD-Speicher gehören. - Das System
100 kann einem oder mehreren Benutzern p1 bis pN zugeordnet sein. Der Begriff „Benutzer“ kann sich auf eine Entität wie beispielsweise eine Einzelperson, einen Computer, ein Projekt oder eine auf einem Computer ausgeführte Anwendung beziehen. In einem Beispiel kann das System100 über das Netzwerk165 mit dem Benutzer p2 verbunden sein. Der Benutzer p2 kann zum Beispiel ein Computer oder eine Computeranwendung sein. In einem weiteren Beispiel kann ein Benutzer wie beispielsweise p1 eine Einzelperson sein, die über ein Konto in dem System100 verfügt. - Der Speicher
120 kann Datenobjektef1 bisfN der Benutzerp1 bispN enthalten. Ein Datenobjekt kann zum Beispiel eine Datei oder mindestens ein Teil einer Datenbank sein. Zum Beispiel können dem Benutzerp2 ein oder mehrere Datenobjekte vonf1 bisfN zugeordnet werden, auf die zum Beispielp2 Zugriff hat oder diep2 liest, um eine Anwendung zu verarbeiten etc. In einem weiteren Beispiel kann ein Datenobjektf1 bisfN wie beispielsweise ein Buch einem Benutzerp1 gehören. Anders ausgedrückt, die Datenobjektef1 bisfN haben eine Beziehung oder Verbindung zu den Benutzernp1 bispN . - Der Speicher
120 kann des Weiteren die Datenobjektef1 bis fN und die Datenobjektep1 bis pN beschreibende (z.B. die Eigenschaften beschreibende) Metadaten enthalten. Zum Beispiel sind die Metadaten metaf1 bis metafN Metadaten der jeweiligen Datenobjektef1 bis fN. Die Metadaten metap1 bis metapN sind Metadaten der jeweiligen Benutzerp1 bis pN. - Ein Metadatum metaf1 bis fN kann ein oder mehrere Objektattribute Attf1_1 bis Attf1_N, Attf2_1 bis Attf2_N...AttfN_1 bis AttfN_N enthalten, deren Werte jeweils Eigenschaften des Datenobjekts
f1 bis fN beschreiben. Zum Beispiel kann ein Objektattribut ein Erstellungsdatum, ein Dateiformat oder einen Vertraulichkeitsgrad des jeweiligen Datenobjekts enthalten. Anders ausgedrückt, jedes Objektattribut eines Metadatums metaf1 bis metafN hat einen Wert, der eine Datenobjekt-Eigenschaft des jeweiligen Datenobjektsf1 bis fN beschreibt. Jedes Datenobjekt (z.B.f1 ) hat mindestens ein Attribut der Attribute Attf1_1 bis Attf1_N, das zeitbezogen oder zeitabhängig ist. Angenommen, zum Zweck der beispielhaften Erläuterung, die Attribute Attf1_1 und Attf1_3 vonf1 sind zeitabhängig, da Attf1_1 das Erstellungsdatum vonf1 und Attf1_3 der letzte Änderungszeitpunkt des Datenobjektsf1 ist. Die Datenobjektef1 bis fN können dieselben Objektattribute in ihren jeweiligen Metadaten metaf1 bis metafN haben oder auch nicht haben. - Ein Metadatum metap1 bis pN kann ein oder mehrere Benutzerattribute Attp1_1 bis Attp1_N, Attp2_1 bis Attp2_N...AttpN_1 bis AttpN_N enthalten, deren Werte jeweils Benutzereigenschaften des Benutzers
p1 bis pN beschreiben. Die Benutzereigenschaft kann eine Eigenschaft des Benutzers selbst oder eine Eigenschaft enthalten, die die Beziehung des Benutzers zu einem oder mehreren Datenobjektenf1 bis fN beschreibt. Zum Beispiel kann eine Benutzereigenschaft angeben, dass der Benutzer der Eigentümer von einem oder mehreren Datenobjektenf1 bis fN ist. Anders ausgedrückt, jedes Benutzerattribut eines Metadatums metap1 bis metapN hat einen Wert, der eine Benutzereigenschaft des jeweiligen Benutzers beschreibt. Zum Beispiel können sich die Benutzerp1 undp3 beide auf das Datenobjektf1 beziehen, dap1 undp3 Eigentümer des Datenobjektsf1 sind. Somit können die Metadaten metap1 und metap3 jeweils ein Attribut (z.B. „owner of“) mit dem Wert „f1“ (z.B. Attp1_1=„owner of“ und Attp3_1=„owner of“) enthalten. Jeder Benutzer hat mindestens ein Attribut der Benutzerattribute Attp1_1 bis AttpN_N, das zeitbezogen oder zeitabhängig ist. Zum Beispiel kann ein Benutzerattribut „FromDate“ das Startdatum eines Projekts (z.B. pN) angeben und ein weiteres Benutzerattribut „ToDate“ kann den Endzeitpunkt des Projekts pN angeben. Zum Beispiel haben die Benutzerp1 undp3 ihre jeweiligen Metadaten metap1 und metap3, die die Attribute „FromDate“ und „ToDate“ (z.B. Attp1_2= „FromDate“ und Attp1_3=„ToDate“ und Attp3_2= „FromDate“ und Attp3_3=„ToDate“) aufweisen. Die Benutzerp1 bis pN können dieselben Benutzerattribute in ihren jeweiligen Metadaten metap1 bis metapN haben oder auch nicht haben. - In einem Beispiel können die Attribute der Datenobjekte
f1 bis fN und der Benutzerp1 bis pN so konfiguriert werden (z.B. unter Verwendung eines Tags), dass jedes Attribut ein Hinweis darauf ist, ob es einer zeitabhängigen Eigenschaft entspricht. -
2 ist ein Ablaufplan eines Verfahrens zur Verarbeitung eines in einem Computersystem100 gespeicherten Satzes von Datenobjekten (f1 bis fN) von einem oder mehreren Benutzern (p1 bis pN). Das Verfahren kann verwendet werden, um ein Speichersystem (z.B. den Speicher120 ) zu bereinigen, indem die Datenobjekte gelöscht werden, die durch das vorliegende Verfahren als löschbar ermittelt werden. - Wie in
1 veranschaulicht ist, werden jedem Datenobjektf1 bis fN jeweilige Metadaten metaf1 bis metafN zugeordnet, die die Datenobjekt-Eigenschaften des Datenobjekts aufweisen. Darüber hinaus werden jedem Benutzerp1 bis pN Metadaten metap1 bis metapN zugeordnet, die Benutzereigenschaften der Benutzerp1 bis pN aufweisen. - Im Schritt
201 kann eine kombinierte Eigenschaft für jedes Datenobjekt des Satzes von Datenobjektenf1 bis fN festgestellt werden. Die kombinierte Eigenschaft eines bestimmten Datenobjekts enthält mindestens einen Teil der Datenobjekt-Eigenschaften des bestimmten Datenobjekts und die Benutzereigenschaften der Benutzer des bestimmten Datenobjekts. Zum Beispiel kann die kombinierte Eigenschaft des Datenobjektsf1 die Metadaten metaf1 vonf1 sowie metap1 und metap3 enthalten, da die Benutzerp1 undp3 die Eigentümer vonf1 sind (vgl.1 ). Anders ausgedrückt, die kombinierte Eigenschaft des bestimmten Datenobjektsf1 kann Werte der Objektattribute (Attf1_1-Attf1_N) von den Metadaten metaf1 und Werte der Benutzerattribute (Attp1_1-N und Attp3_1-N) von den Metadaten metap1 und metap3 aufweisen, die sich auff1 beziehen. - Im Schritt
203 kann ein Satz von Vektoren erzeugt werden, so dass jeder Vektor die jeweiligen kombinierten Eigenschaften aufweist. Zum Beispiel kann für jedes Datenobjektf1 bis fN ein jeweiliger Vektor erstellt oder erzeugt werden. Der Vektor eines bestimmten Datenobjektsf1 kann zum Beispiel ein mehrdimensionaler Vektor sein, der über eine Dimension für jedes Attribut des Objekts und Benutzerattribute der kombinierten Eigenschaft des bestimmten Datenobjektsf1 verfügt. - Im Schritt
205 können zeitabhängige Eigenschaften des Satzes von Datenobjekten festgestellt oder ermittelt werden. Zum Beispiel können für jede kombinierte Eigenschaft Datenobjekt- und Benutzereigenschaften dieser kombinierten Eigenschaft ermittelt werden, die einen Zeitwert oder einen zeitbezogenen Wert haben. - Dem Beispiel des Datenobjekts
f1 folgend, enthält die kombinierte Eigenschaft die Attribute Attf1_1-N, Attp1_1-N und Attp3_1-N. Jedes der Attribute Attf1_1-N, Attp1_1-N und Attp3_1-N kann geprüft werden, um festzustellen, ob es einen Zeitwert hat oder ob es einer zeitabhängigen Eigenschaft entspricht (z.B. unter Verwendung der den Attributen zugeordneten Typen). Für das Datenobjektf1 können die Attribute Attf1_1 und Attf1_3, Attp1_2, Attp1_3, Attp3_2 und Attp3_3 ermittelt werden, da sie zeitabhängigen Eigenschaften entsprechen. - Im Schritt
207 können mindestens zwei Metriken bestimmt oder definiert werden. Eine erste Metrik der Metriken kann die Löschbarkeit eines Clusters von Datenobjekten angeben und eine zweite Metrik der Metriken kann die Qualität des Clusters angeben. Die erste Metrik eines bestimmten Clusters kann unter Verwendung von mindestens den zeitabhängigen Eigenschaften der Datenobjekte des bestimmten Clusters bestimmt werden. Die zweite Metrik kann ein Qualitätsmaß bereitstellen, so dass der Clusteringprozess im Hinblick auf dieses Maß optimiert werden kann. - Zum Beispiel kann die Löschbarkeitsmetrik so definiert werden, dass sie angibt, wie aktiv ein bestimmtes Datenobjekt sowohl auf den zeitabhängigen Objekteigenschaften des Datenobjekts als auch den zeitabhängigen Benutzereigenschaften der Benutzer, die sich auf das Datenobjekt f beziehen, oder genauer gesagt, der Eigentümer des Datenobjekts f beruht. Die Aktivität von Benutzern p, die auf das Datenobjekt f zugreifen können, kann festgestellt werden, zum Beispiel, da eine Löschvariable, die als aprioriDel(p) für einen Benutzer p derjenigen Benutzer bezeichnet wird, die angeben, dass der Benutzer p und sein gesamter Inhalt als löschbar betrachtet wird, definiert werden kann. Zum Beispiel kann aprioriDel(p) von dem Benutzer p auf einen bestimmten Wert gesetzt werden, der angibt, dass der Inhalt von p löschbar ist. Unter Verwendung der Löschvariablen des Benutzers p und der dem Benutzer p zugeordneten Attribute, die zeitabhängig sind, wie beispielsweise FromDate(p) und ToDate(p), kann die Aktivität des Benutzers p (die als projectActiveness(p) bezeichnet wird) wie folgt berechnet werden:
projectActiveness(p) = 0 if aprioriDel(p) 3 if NOW after FromDate(p) & NOW before ToDate(p) 1 if NOW after ToDate(p) 1 if NOW before FromDate(p) 0 otherwise, where NOW is the current time.
Die aktuelle Uhrzeit („current time“) kann die Uhrzeit sein, zu der das vorliegende Verfahren ausgeführt wird. Die Aktivität eines jeden Datenobjekts f in Bezug auf einen entsprechenden Benutzer p, die als fileActiveness(f,p) bezeichnet wird, kann durch eine Variable recent(f) festgestellt werden, die angibt, ob das Datenobjekt f neu ist oder nicht. Die Variable recent (f) kann beruhend auf dem Alter des Datenobjekts f definiert werden, welches wie folgt definiert werden kann | NOW - date(f) | oder als log | NOW - date(f) |, wobei date(f) das Erstellungsdatum des Datenobjekts f ist. Falls | NOW - date(f) | kleiner als ein vorher festgelegter Schwellenwert ist, kann die Variable recent(f) einen Wert (z.B. 1) haben, der angibt, ob das Datenobjekt f neu ist, andernfalls kann die Variable recent(f) einen Wert (z.B. 0) haben, der angibt, dass das Datenobjekt f nicht neu ist. Die Aktivität des Datenobjekts f in Bezug auf einen bestimmten Benutzer p (fileActiveness(f,p)) kann unter Verwendung der Variablen recent(f), des Erstellungsdatums von f und zeitabhängiger Attribute des Benutzers p, nämlich ToDate und FromDate, wie folgt berechnet werden.
fileActiveness(f,p) = SUM_i[dateFactors_i(f,p)] with dateFactors_1(f,p) = 2 if date(f) < ToDate(p) dateFactors_2(f,p) = 2 if date(f) > Fromdate(p) dateFactors_3(f,p) = 1 if recent(f).
Unter Verwendung der berechneten Aktivität von Benutzern p, die auf das Datenobjekt f zugreifen können, und der Aktivität des Datenobjekts f, fileActiveness(f,p), in Bezug auf jeden dieser Benutzer p, kann die kombinierte Aktivität (combactive) als eine gewichtete Summe wie folgt definiert werden:
combactive(f) = SUM_{p} (projectActiveness(p) *
fileActiveness(f, p)), wobei die Summe über Benutzer gebildet wird, die Zugriff auf das Datenobjekt f haben.
combactive(f) = SUM_{p} (projectActiveness(p) *
fileActiveness(f, p)), wobei die Summe über Benutzer gebildet wird, die Zugriff auf das Datenobjekt f haben.
Eine Objektmetrik (specDel(f)) des Datenobjekts f kann dann unter Verwendung der kombinierten Aktivität combactive(f) wie folgt definiert werden: specDel(f) = 1 falls combactive(f) = 0
oder andernfalls 1/combactive(f).
oder andernfalls 1/combactive(f).
Unter Verwendung der Objektmetriken der Datenobjekte, die zu einem Cluster c gehören, kann die erste Metrik (specDel(c)) des Clusters c zum Beispiel als der Mittelwert der Objektmetriken berechnet werden: specDel(c) = MEAN[specDel(f)] f ∈ c. („f ∈ c“ bezieht sich auf Datenobjekte f, die zu dem Cluster c gehören).
In einem weiteren Beispiel kann die obige Summe SUM_{p} über einen Teil der Benutzer, die auf das Datenobjekt f zugreifen können, gebildet werden. Dieser Teil der Benutzer kann ausgewählt werden, zum Beispiel beruhend auf dem Grad der Eigentümerschaft eines jeden Benutzers p an dem Datenobjekt f. Dieser Grad der Eigentümerschaft kann als strengthOfOwnership(f, p) bezeichnet und als die Summe der Eigentümerschaft-Indikatoren von p in f definiert werden. Dies kann zum Beispiel die wichtigsten Eigentümer des Datenobjekts f angeben. Zu den Eigentümerschaft-Indikatoren gehören zum Beispiel der Vorname oder der Zuname von p in dem Dateinamen von f, die Dateisystem-Eigentümerschaft oder projektbezogene Indikatoren. Der Teil der Benutzer kann als die Benutzer definiert werden, deren strengthOfOwnership(f, p) höher als ein vorher festgelegter Schwellenwert t ist: P_t(f) = {p E p1-pN | strengthOfOwnership(f, p) > t}.
In diesem Fall kann die kombinierte Aktivität des Datenobjekts f als eine gewichtete Summe wie folgt definiert werden:
combactive(f) = SUM_{p ∈ P_t(f)} (projectActiveness(p) *
fileActiveness(f, p)).
combactive(f) = SUM_{p ∈ P_t(f)} (projectActiveness(p) *
fileActiveness(f, p)).
Im Schritt 209 kann mindestens ein Teil des im Schritt 203 erstellten Satzes von Vektoren in einen Clustering-Algorithmus eingegeben werden. Der mindestens eine Teil des Satzes von Vektoren kann als ein Trainings-Datensatz verwendet werden. Der Clustering-Algorithmus kann zum Beispiel ein hierarchischer Clustering-Algorithmus sein. Der mindestens eine Teil des Satzes von Vektoren kann zum Beispiel aus dem Satz von Vektoren zufällig ausgewählt werden.
Im Schritt 211 kann der Clustering-Algorithmus so konfiguriert werden, dass er die Datenobjekte zu einem Cluster zusammenfasst und ein am besten löschbares Cluster beruhend auf den im Schritt 207 bestimmten Metriken ermittelt. Zum Beispiel kann der in US 2016/0004730 A1 beschriebene Clustering-Algorithmus, der durch Bezugnahme Bestandteil hiervon ist, verwendet werden, um beruhend auf der distance(c1 ,c2-)Funktion, die einen (normalisierten) Euklidischen Abstand zwischen den Vektoren der beiden Cluster c1 , c2 bereitstellt, eine hierarchische Cluster-Struktur aufzubauen. Die erste Metrik specDel(c) kann als Spezialisierungskriterium zum Erlernen einer probabilistischen Löschbarkeitsschätzfunktion del(f) und die zweite Metrik als ein Mittel zur Verallgemeinerung der gesamten für alle digitalen Objekte vorhandenen Informationen verwendet werden. Ein gutes Cluster ist ein Cluster mit einem niedrigen Wert der zweiten Metrik (d.h. hohe Qualität) und einer hohen Löschbarkeit. Das Konfigurieren des Clustering-Algorithmus kann die Integration von zwei Kriterien für die erste Metrik und die zweite Metrik in den Lern-/Clusteraufbauprozess aufweisen, um ein am besten löschbares Cluster zu finden, so dass sein erster und sein zweiter Metrikwert beides, die Zielfunktion der hohen Löschbarkeit und der hohen Qualität erfüllen. Das heißt, der erste und der zweite Metrikwert des am besten löschbaren Clusters ist der, den man erhält, falls keine der Zielfunktionen im Wert verbessert werden kann, ohne die anderen Zielfunktionswerte zu verschlechtern. Das Paar des ersten und des zweiten Metrikwerts des am besten löschbaren Clusters kann Pareto-optimal oder Pareto-effizient sein.
Ein Pseudocode des Clustering-Algorithmus, um F-Dateien zu einem Cluster zusammenzufassen, kann zum Beispiel wie folgt gesetzt werden: Die Variable namens dateDeletability(c) in dem folgenden Pseudocode ist die erste Metrik specDel(c).
v(F) - Satz aller Dateivektoren (z.B. als der obige Satz von Vektoren bestimmt) F_t Teilmenge F - Schulungssatz, F - alle Dateien v(F_t) Teilmenge v(F) zufällig gewählt 1.
Lernschritt.
- (1) Hole zufälligen Satz v(F_t) aus v(F)
- (2) Erzeuge Satz von Anfangsclustern C1 ... Ck
- (3) Führe Clustering mit Euklidischem Abstand durch und starte dabei mit
C1 bis Ck, was Cluster ergibt Ck+1, ...,Cm (Baumstruktur). Für jedes neue Cluster CJ berechne cvalue(CJ) und dateDeletability(CJ). - (4) Suche das Cluster C_r (1 <= r <= m), so dass dateDeletability(C_r) * k0 + 1/cvalue(C_r) maximal ist, wobei k0 eine vorher festgelegte Konstante ist
- (5) Definiere del(f) =def 1 - distance(v(C_r), v(f)) 2. Klassifizierungsschritt. Für alle Dateien F_i: wenn del(F_i) > Schwellenwert, gib (F_i) aus
Zum Beispiel kann das am besten löschbare Cluster unter Verwendung eines Optimierungsproblems mit 2 Zielwerten, nämlich den Werten der ersten und der zweiten Metrik, ermittelt werden. Eine Kombination der beiden Werte, in einem Beispiel, wie ein Schieberegler, mehr Gewicht zu der zweiten Metrik bedeutet, dass der Algorithmus allgemein immer mehr Gewicht zu der ersten Metric specDel(c) verschiebt, was bedeutet, dass sich der Algorithmus auf Beispieldaten spezialisiert. Diese Optimierung im Hinblick auf mehrere Zielfunktionen oder Kriterien kann eine Pareto-Optimierung sein. Eine Pareto-optimale Lösung ist ein Cluster mit einem bestimmten Wert der ersten Metrik und einem bestimmten Wert der zweiten Metrik, so dass jedes Cluster mit einem höheren Wert der zweiten Metrik einen niedrigeren Wert der ersten Metrik hat und umgekehrt, so dass mindestens zwei Lösungen bereitgestellt werden können.
Im Schritt 215 kann das am besten löschbare Cluster verwendet werden, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist. Zum Beispiel kann der Abstand distance(v(f), v(c_0)) zwischen dem Vektor eines Datenobjekts f und dem Zentroidvektor des am besten löschbaren Clusters mit der Bezeichnung c_0 angeben, ob das Datenobjekt f löschbar ist oder nicht. Wenn dieser Abstand zum Beispiel kleiner als ein maximaler Abstandsschwellwert ist, ist das Datenobjekt f löschbar. Der Zentroidvektor des am besten löschbaren Clusters ist der Vektor, den man erhält, indem man die Vektoren der Datenobjekte des am besten löschbaren Clusters kombiniert (z.B. aufsummiert und einen Mittelwert bildet). Der Abstand zwischen den Vektoren kann ein Euklidischer Abstand sein.
Zum Beispiel kann eine probabilistische Löschbarkeitsschätzfunktion del(f) verwendet werden, um zu schätzen oder festzustellen, ob ein Datenobjekt f löschbar ist oder nicht. In einem Beispiel ist def(f)= 1- distance(v(f), v(c_0)). Der Begriff „Löschbarkeit“ bezieht sich auf die Wahrscheinlichkeit, dass ein Datenobjekt f löschbar ist, und stellt seine Schätzfunktion dar durch: del(f) → [0, ..,1]. del(f) schätzt die zugrunde liegende Bayessche Wahrscheinlichkeit P(f ∈ f1-fN | Meta(d), Date(d), Org(d)) dahingehend, dass f unter Berücksichtigung von Metadaten, Nutzungsdaten und Organisationsdaten auf dem Datenobjekt f löschbar ist. Der Abstand zwischen zwei Vektoren kann zum Beispiel ein Euklidischer Abstand sein, der unter Verwendung der Elemente eines Vektors mit den entsprechenden Elementen eines weiteren Vektors berechnet wird.
Wie in 3 veranschaulicht ist, können die Testdaten und die Trainingsdaten wie folgt bestimmt werden. Unter Verwendung der Dateimetadaten 301 (wie beispielsweise metaf1 bis metafN) und der Projekt- und Personendaten 303 kann eine Zuordnung 305 (z.B. wie mit dem Schritt 203 beschrieben, um die kombinierten Eigenschaften zu ermitteln) vorgenommen werden, um Eigenschaften aus den Dateimetadaten 301 und entsprechenden Projekt- und Personendaten 303 zu Dateivektoren 307 zusammenzufassen. Die Dateimetadaten 301 sowie die Projekt- und Personendaten 303 , die sich auf eine bestimmte Datei beziehen, können konzeptionell in einem einzelnen Vektor dargestellt werden. Dieser Vektor kann beruhend auf einer Anzahl von Eigentümerschaft-Indikatoren wie etwa dem Vornamen oder dem Nachnamen in dem Dateinamen, der Dateisystem-Eigentümerschaft oder projektbezogenen Indikatoren auch mehr Attribute enthalten, wie beispielsweise den wichtigsten Eigentümer einer Datei. Die Zuordnung 305 kann dazu führen, dass für jede Datei ein entsprechender Dateivektor erzeugt werden kann.
Die Trainingsdaten können aus der Gesamtheit der Dateivektoren 307 zufällig ausgewählt werden. Während Schulungsdaten in einem Bereich von 10 M Vektoren liegen können, kann die Löschbarkeitsschätzung im ungünstigsten Fall linear zur Anzahl der Testdaten und folglich praktisch unbegrenzt sein. Die Schulungsdaten können in den Clustering-Algorithmus 309 eingegeben werden. Der Clustering-Algorithmus 309 kann so konfiguriert werden, dass er eine probabilistische Löschbarkeitsfunktion (del(f)) 311 durch eine erste Lernphase, die die Schulungsdaten verwendet, bestimmt. Die Lernphase kann auf der ersten und der zweiten Metrik beruhen. Darüber hinaus können Attributwerte während der Zuordnungsphase normalisiert werden, um optimale Werte der zweiten Metrik zu erhalten. Um die beiden Kriterien für die erste und die zweite Metrik deutlicher zu unterscheiden, darf eine Berechnung der zweiten Metrik ferner nicht diejenigen (z.B. in diesem Fall datumbezogenen) Attribute verwenden, die in die Berechnung der Objektmetrik specDel(f) eingehen können.
Zum Beispiel kann als eine Optimierung für sehr große Sätze von Schulungsdaten in der ersten Phase eine Anfangssortierung verwendet werden, um Anfangscluster zu erhalten, die eine Vielzahl von Dateivektoren enthalten Sobald das am besten löschbare Cluster als das Pareto-optimale Cluster nach den beiden Kriterien der jeweiligen ersten und zweiten Metrik ausgewählt wurde, kann man bei 311 unter Verwendung des Schritts 1.4 des obigen Pseudocode-Algorithmus eine Löschbarkeitsfunktion erhalten.
In einer zweiten Phase wird die Löschbarkeitsfunktion bei 313 auf Testdaten aus derselben Gesamtheit wie die Schulungsdaten angewendet, wobei zu den Testdaten Schulungsdaten gehören können. Die zweite Phase führt zu vorher festgelegten ..., die bei 315 einer Löschbarkeitsschätzung zugeordnet werden. Da sowohl die erste als auch die zweite Phase bei 307 auf demselben Typ von Dateivektoren beruhen, geht ihnen bei 305 die Zuordnungsphase voraus, in der die Dateivektoren für die Verbindung aus Schulungs- und Testdaten erzeugt werden.
In einem weiteren Beispiel wird ein Verfahren für ein Aufbewahrungsrichtlinien-Mining bereitgestellt. Das Verfahren beinhaltet das Definieren eines Merkmalsvektors v für Löschbarkeit oder Erhaltbarkeit, der Merkmalsvektor enthält zum Beispiel den Eigentümer, das Projekt, das Datum des letzten Zugriffs, das Erstellungsdatum und Zugriffsrechte. Das Verfahren beinhaltet das Feststellen von Merkmalsvektoren für Objekte und das Definieren einer Löschbarkeitsmetrik für ein Objekt, wenn die Löschbarkeitsmetrik von zeitbezogenen oder datumbezogenen Merkmalen eines Objekts abhängig sein kann. Das Verfahren beinhaltet das Feststellen von Löschbarkeitsmetrikwerten für die Objekte, das Definieren einer Cluster-Löschbarkeitsmetrik specDel() in Abhängigkeit von Löschbarkeitsmetrikwerten von Objekten, die zu dem Cluster gehören, das Definieren einer Clusterqualitätsmetrik cvalue(), die Objektmerkmale ohne Zeit- oder Datumsbezug bei Verwendung eines hierarchischen Clustering-Algorithmus (Stand der Technik) wiedergeben, um ein Paretooptimales Cluster unter der Clusterqualitätsmetrik cvalue() (wobei die Verallgemeinerung auf Merkmalen ohne Zeit- oder Datumsbezug beruht) und der Clusterlöschbarkeitsmetrik specDel() (Spezialisierung des Clustering an veralteten Objekten) festzustellen, was zu einem am besten löschbaren Cluster bdc führt. Das Verfahren beinhaltet das Definieren einer Schätzfunktion del(f) für die Löschbarkeit von Objekten f beruhend auf dem Abstand zwischen dem Merkmalsvektor v(f) eines Objekts und dem Merkmalsvektor v(bdc) des Zentroids des am besten löschbaren Clusters. Die Schätzfunktion del(f) wird dann verwendet, um Objekte in löschbar/nicht löschbar zu klassifizieren.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) beinhalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder gehobene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Glasfaserkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur
- US 2016/0004730 A1 [0057]
Claims (21)
- Verfahren zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern, wobei das Verfahren aufweist: Bereitstellen von Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten; Feststellen für jedes Datenobjekt des Satzes von Datenobjekten einer kombinierten Eigenschaft, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist; Feststellen von zeitabhängigen Eigenschaften des Satzes von Datenobjekten, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat; Definieren von mindestens zwei Metriken, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird; Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus; und Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist.
- Verfahren nach
Anspruch 1 , wobei die erste Metrik eines bestimmten Clusters eine Kombination aus Objektmetriken von Datenobjekten des Clusters ist, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt. - Verfahren nach
Anspruch 2 , wobei die Objektmetrik eines bestimmten Datenobjekts eine gewichtete Summe der Aktivität von Benutzern des bestimmten Datenobjekts, multipliziert mit der Aktivität des bestimmten Datenobjekts aufweist, wobei die Aktivität des Benutzers beruhend auf dem Ergebnis eines Vergleichs der aktuellen Uhrzeit mit dem dem Benutzer zugeordneten Start- und Endzeitpunkt festgestellt wird, wobei die Aktivität des bestimmten Datenobjekts beruhend auf dem Ergebnis eines Vergleichs des letzten Änderungszeitpunkts oder des Erstellungsdatums des bestimmten Datenobjekts mit dem einem Benutzer des bestimmten Datenobjekts zugeordneten Start- und Endzeitpunkt festgestellt wird. - Verfahren nach
Anspruch 2 , wobei die erste Metrik der Mittelwert der Objektmetriken der Datenobjekte eines Clusters ist. - Verfahren nach
Anspruch 3 , wobei die Summe über Benutzer derjenigen Benutzer gebildet wird, deren vorher festgelegter Grad des Zugriffs auf das bestimmte Datenobjekt höher als ein vorher festgelegter Schwellenwert ist. - Verfahren nach
Anspruch 1 wobei die zweite Metrik ein Hinweis auf die Anzahl der Datenobjekte und die Anzahl der Eigenschaftswerte der Datenobjekte eines Clusters ist. - Verfahren nach
Anspruch 1 , wobei die Benutzereigenschaft aus der Gruppe ausgewählt wird, die aus dem Grad der Eigentümerschaft des Benutzers eines Datenobjekts und dem dem Benutzer zugeordneten Startzeitpunkt und Endzeitpunkt besteht. - Verfahren nach
Anspruch 1 , wobei die Datenobjekt-Eigenschaft aus der Gruppe ausgewählt wird, die aus einem Erstellungsdatum des Datenobjekts, dem letzten Änderungszeitpunkt des Datenobjekts, dem Typ des Datenobjekts und dem Speicherort des Datenobjekts besteht. - Verfahren nach
Anspruch 1 , wobei der Clustering-Algorithmus ein hierarchischer Clustering-Algorithmus ist und wobei das am besten löschbare Cluster ein Paretooptimales Cluster unter den Metriken ist. - Verfahren nach
Anspruch 1 , das des Weiteren aufweist: Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt eines weiteren Satzes von Datenobjekten löschbar oder nicht löschbar ist. - Verfahren nach
Anspruch 10 , wobei ein weiterer Satz von Datenobjekten in einem weiteren Computersystem gespeichert wird. - Verfahren nach
Anspruch 10 , wobei ein weiterer Satz von Datenobjekten dem einen oder den mehreren Benutzern oder anderen Benutzern gehört. - Verfahren nach
Anspruch 1 , wobei mindestens ein Teil der kombinierten Eigenschaften aus dem Satz von kombinierten Eigenschaften zufällig ausgewählt wird. - Verfahren nach
Anspruch 1 , wobei das am besten löschbare Cluster das Cluster ist, das den höchsten Wert der ersten Metrik und den niedrigsten Wert der zweiten Metrik hat. - Verfahren nach
Anspruch 1 , das des Weiteren aufweist: Erzeugen eines Satzes von Vektoren, die die jeweiligen kombinierten Eigenschaften aufweisen, wobei das Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus das Eingeben von mindestens einem Teil des Satzes von Vektoren in den Clustering-Algorithmus aufweist. - Computersystem zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern, das aufweist: einen oder mehrere Prozessoren, einen oder mehrere durch einen Computer lesbare Hauptspeicher, ein oder mehrere durch einen Computer lesbare physische Speichermedien sowie auf mindestens einem des einen oder der mehreren physischen Speichermedien gespeicherte Programmanweisungen zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren über mindestens einen des einen oder der mehreren Hauptspeicher, wobei das Computersystem in der Lage ist, ein Verfahren durchzuführen, das aufweist: Bereitstellen von Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten; Feststellen für jedes Datenobjekt des Satzes von Datenobjekten einer kombinierten Eigenschaft, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist; Feststellen von zeitabhängigen Eigenschaften des Satzes von Datenobjekten, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat; Definieren von mindestens zwei Metriken, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird; Eingeben von mindestens einem Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus; und Verwenden des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist.
- Computersystem nach
Anspruch 16 , wobei die erste Metrik eines bestimmten Clusters eine Kombination aus Objektmetriken von Datenobjekten des Clusters ist, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt. - Computersystem nach
Anspruch 16 , wobei die Objektmetrik eines bestimmten Datenobjekts eine gewichtete Summe der Aktivität von Benutzern des bestimmten Datenobjekts, multipliziert mit der Aktivität des bestimmten Datenobjekts aufweist, wobei die Aktivität des Benutzers beruhend auf dem Ergebnis eines Vergleichs der aktuellen Uhrzeit mit dem dem Benutzer zugeordneten Start- und Endzeitpunkt festgestellt wird, wobei die Aktivität des bestimmten Datenobjekts beruhend auf dem Ergebnis eines Vergleichs des letzten Änderungszeitpunkts oder des Erstellungsdatums des bestimmten Datenobjekts mit dem einem Benutzer des bestimmten Datenobjekts zugeordneten Start- und Endzeitpunkt festgestellt wird. - Computerprogrammprodukt zur Verarbeitung eines in einem Computersystem gespeicherten Satzes von Datenobjekten von einem oder mehreren Benutzern, das aufweist: ein oder mehrere durch einen Computer lesbare Speichermedien und Programmanweisungen, die auf mindestens einem des einen oder der mehreren physischen Speichermedien gespeichert sind, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, wobei die Programmanweisungen aufweisen: Programmanweisungen, um Datenobjekt-Eigenschaften des Satzes von Datenobjekten und Benutzereigenschaften der Benutzer des Satzes von Datenobjekten bereitzustellen; Programmanweisungen, um für jedes Datenobjekt des Satzes von Datenobjekten eine kombinierte Eigenschaft festzustellen, die mindestens einen Teil der Datenobjekt-Eigenschaften des Datenobjekts sowie der Benutzereigenschaften von Benutzern des Datenobjekts aufweist; Programmanweisungen, um zeitabhängige Eigenschaften des Satzes von Datenobjekten festzustellen, wobei eine zeitabhängige Eigenschaft eines Datenobjekts Datenobjekt- und Benutzereigenschaften des Datenobjekts aufweist, das Zeitwerte hat; Programmanweisungen, um mindestens zwei Metriken zu definieren, wobei eine erste Metrik der Metriken die Löschbarkeit eines Clusters von Datenobjekten und eine zweite Metrik die Qualität des Clusters angibt, wobei die erste Metrik unter Verwendung der zeitabhängigen Eigenschaften der Datenobjekte des Clusters bestimmt wird; Programmanweisungen, um mindestens einen Teil des Satzes von kombinierten Eigenschaften in einen Clustering-Algorithmus einzugeben; und Programmanweisungen zur Verwendung des Clustering-Algorithmus, um die Datenobjekte zu einem Cluster zusammenzufassen und um ein am besten löschbares Cluster der Datenobjekte beruhend auf den Werten der Metriken zu ermitteln; Verwenden des am besten löschbaren Clusters, um festzustellen, ob ein Datenobjekt des Satzes von Datenobjekten löschbar oder nicht löschbar ist.
- Computerprogrammprodukt nach
Anspruch 19 , wobei die erste Metrik eines bestimmten Clusters eine Kombination aus Objektmetriken von Datenobjekten des Clusters ist, wobei eine Objektmetrik die Löschbarkeit des jeweiligen Datenobjekts angibt. - Computerprogramm, das Programmcode-Mittel aufweist, die so ausgelegt sind, dass sie das Verfahren nach einem der
Ansprüche 1 bis15 durchführen, wenn das Programm auf einem Computer ausgeführt wird.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/603,725 US10956453B2 (en) | 2017-05-24 | 2017-05-24 | Method to estimate the deletability of data objects |
US15/603,725 | 2017-05-24 | ||
PCT/IB2018/053569 WO2018215912A1 (en) | 2017-05-24 | 2018-05-21 | A method to estimate the deletability of data objects |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112018001290T5 true DE112018001290T5 (de) | 2020-01-02 |
Family
ID=64396421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112018001290.5T Pending DE112018001290T5 (de) | 2017-05-24 | 2018-05-21 | Verfahren zum Schätzen der Löschbarkeit von Datenobjekten |
Country Status (6)
Country | Link |
---|---|
US (1) | US10956453B2 (de) |
JP (1) | JP7038143B2 (de) |
CN (1) | CN110679114B (de) |
DE (1) | DE112018001290T5 (de) |
GB (1) | GB2576453A (de) |
WO (1) | WO2018215912A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956453B2 (en) | 2017-05-24 | 2021-03-23 | International Business Machines Corporation | Method to estimate the deletability of data objects |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11481662B1 (en) * | 2017-07-31 | 2022-10-25 | Amazon Technologies, Inc. | Analysis of interactions with data objects stored by a network-based storage service |
US10984007B2 (en) * | 2018-09-06 | 2021-04-20 | Airbnb, Inc. | Recommendation ranking algorithms that optimize beyond booking |
CN111882416A (zh) * | 2020-07-24 | 2020-11-03 | 未鲲(上海)科技服务有限公司 | 一种风险预测模型的训练方法和相关装置 |
CN112380494B (zh) * | 2020-11-17 | 2023-09-01 | 中国银联股份有限公司 | 一种确定对象特征的方法及装置 |
CN112365244B (zh) * | 2020-11-27 | 2024-04-26 | 深圳前海微众银行股份有限公司 | 数据生命周期管理方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160004730A1 (en) | 2014-07-07 | 2016-01-07 | International Business Machines Corporation | Mining of policy data source description based on file, storage and application meta-data |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195657B1 (en) | 1996-09-26 | 2001-02-27 | Imana, Inc. | Software, method and apparatus for efficient categorization and recommendation of subjects according to multidimensional semantics |
US6587876B1 (en) | 1999-08-24 | 2003-07-01 | Hewlett-Packard Development Company | Grouping targets of management policies |
US7418489B2 (en) | 2000-06-07 | 2008-08-26 | Microsoft Corporation | Method and apparatus for applying policies |
CA2326805A1 (en) | 2000-11-24 | 2002-05-24 | Ibm Canada Limited-Ibm Canada Limitee | Method and apparatus for deleting data in a database |
US20030033263A1 (en) * | 2001-07-31 | 2003-02-13 | Reel Two Limited | Automated learning system |
US7751628B1 (en) * | 2001-12-26 | 2010-07-06 | Reisman Richard R | Method and apparatus for progressively deleting media objects from storage |
US20060080354A1 (en) | 2004-08-27 | 2006-04-13 | Nokia Corporation | System for selecting data from a data store based on utility of the data |
US7587418B2 (en) | 2006-06-05 | 2009-09-08 | International Business Machines Corporation | System and method for effecting information governance |
US7970746B2 (en) | 2006-06-13 | 2011-06-28 | Microsoft Corporation | Declarative management framework |
JP2008129730A (ja) * | 2006-11-17 | 2008-06-05 | Hitachi Ltd | 共有ファイル管理方法、共有ファイル管理プログラム、および、共有ファイル管理装置 |
US7743058B2 (en) | 2007-01-10 | 2010-06-22 | Microsoft Corporation | Co-clustering objects of heterogeneous types |
US8145677B2 (en) | 2007-03-27 | 2012-03-27 | Faleh Jassem Al-Shameri | Automated generation of metadata for mining image and text data |
CN101420313B (zh) | 2007-10-22 | 2011-01-12 | 北京搜狗科技发展有限公司 | 一种针对客户端用户群进行聚类的方法和系统 |
US20100011027A1 (en) | 2008-07-11 | 2010-01-14 | Motorola, Inc. | Policy rule conflict detection and management |
CN101997853A (zh) | 2009-08-31 | 2011-03-30 | 中兴通讯股份有限公司 | 数据下载方法及终端 |
US8533161B2 (en) | 2009-10-30 | 2013-09-10 | Hitachi Data Systems Corporation | Fixed content storage within a partitioned content platform, with disposition service |
CN101782976B (zh) * | 2010-01-15 | 2013-04-10 | 南京邮电大学 | 一种云计算环境下机器学习自动选择方法 |
US20120142429A1 (en) * | 2010-12-03 | 2012-06-07 | Muller Marcus S | Collaborative electronic game play employing player classification and aggregation |
CN102855259B (zh) * | 2011-06-30 | 2015-05-13 | Sap欧洲公司 | 大规模数据聚类分析的并行化 |
US20130030865A1 (en) | 2011-07-25 | 2013-01-31 | Nova-Ventus Consulting Sl | Method of constructing a loyalty graph |
US8929687B2 (en) * | 2011-08-29 | 2015-01-06 | Dst Technologies, Inc. | System and method for candidate sorting and clustering |
JP2013206280A (ja) * | 2012-03-29 | 2013-10-07 | Fujitsu Ltd | 削除ファイル検出プログラム、削除ファイル検出方法、及び、削除ファイル検出装置 |
JP5912949B2 (ja) | 2012-07-12 | 2016-04-27 | 株式会社日立ソリューションズ | 業務文書処理システム、及びプログラム |
US9083757B2 (en) * | 2012-11-21 | 2015-07-14 | Telefonaktiebolaget L M Ericsson LLP | Multi-objective server placement determination |
US10417653B2 (en) * | 2013-01-04 | 2019-09-17 | PlaceIQ, Inc. | Inferring consumer affinities based on shopping behaviors with unsupervised machine learning models |
CN103218524B (zh) * | 2013-04-03 | 2016-01-20 | 西安电子科技大学 | 基于密度的欠定盲源分离方法 |
CN103258217A (zh) * | 2013-05-15 | 2013-08-21 | 中国科学院自动化研究所 | 一种基于增量学习的行人检测方法 |
US9355118B2 (en) * | 2013-11-15 | 2016-05-31 | International Business Machines Corporation | System and method for intelligently categorizing data to delete specified amounts of data based on selected data characteristics |
CN103617146B (zh) * | 2013-12-06 | 2017-10-13 | 北京奇虎科技有限公司 | 一种基于硬件资源消耗的机器学习方法及装置 |
CN103744935B (zh) * | 2013-12-31 | 2017-06-06 | 华北电力大学(保定) | 一种计算机快速海量数据聚类处理方法 |
US9477713B2 (en) * | 2014-06-06 | 2016-10-25 | Netflix, Inc. | Selecting and ordering groups of titles |
US10268820B2 (en) * | 2014-06-11 | 2019-04-23 | Nippon Telegraph And Telephone Corporation | Malware determination device, malware determination system, malware determination method, and program |
US20160045120A1 (en) * | 2014-08-15 | 2016-02-18 | Massachusetts Institute Of Technology | Systems and methods for spike sorting |
KR20170113619A (ko) * | 2015-02-06 | 2017-10-12 | 센스 에듀케이션 이스라엘., 엘티디. | 응답을 평가하기 위한 반자동화된 시스템 및 방법 |
CN104573130B (zh) * | 2015-02-12 | 2017-11-03 | 北京航空航天大学 | 基于群体计算的实体解析方法及装置 |
US10327112B2 (en) * | 2015-06-12 | 2019-06-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and system for grouping wireless devices in a communications network |
US10628456B2 (en) * | 2015-10-30 | 2020-04-21 | Hartford Fire Insurance Company | Universal analytical data mart and data structure for same |
CN105488167B (zh) | 2015-11-30 | 2019-12-13 | 北京金山安全软件有限公司 | 一种索引库更新方法及装置 |
US10482091B2 (en) * | 2016-03-18 | 2019-11-19 | Oath Inc. | Computerized system and method for high-quality and high-ranking digital content discovery |
CN105912456B (zh) | 2016-05-10 | 2019-01-22 | 福建师范大学 | 一种基于用户兴趣迁移的大数据集仿真生成方法 |
CN106022295B (zh) * | 2016-05-31 | 2019-04-12 | 北京奇艺世纪科技有限公司 | 一种数据位置的确定方法及装置 |
CN105915801A (zh) * | 2016-06-12 | 2016-08-31 | 北京光年无限科技有限公司 | 改善抓拍效果的自学习方法及装置 |
US10956453B2 (en) | 2017-05-24 | 2021-03-23 | International Business Machines Corporation | Method to estimate the deletability of data objects |
-
2017
- 2017-05-24 US US15/603,725 patent/US10956453B2/en active Active
-
2018
- 2018-05-21 WO PCT/IB2018/053569 patent/WO2018215912A1/en active Application Filing
- 2018-05-21 DE DE112018001290.5T patent/DE112018001290T5/de active Pending
- 2018-05-21 GB GB1916870.7A patent/GB2576453A/en not_active Withdrawn
- 2018-05-21 CN CN201880033828.3A patent/CN110679114B/zh active Active
- 2018-05-21 JP JP2019563857A patent/JP7038143B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160004730A1 (en) | 2014-07-07 | 2016-01-07 | International Business Machines Corporation | Mining of policy data source description based on file, storage and application meta-data |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956453B2 (en) | 2017-05-24 | 2021-03-23 | International Business Machines Corporation | Method to estimate the deletability of data objects |
Also Published As
Publication number | Publication date |
---|---|
US10956453B2 (en) | 2021-03-23 |
US20180341695A1 (en) | 2018-11-29 |
GB2576453A (en) | 2020-02-19 |
JP2020522782A (ja) | 2020-07-30 |
GB201916870D0 (en) | 2020-01-01 |
CN110679114A (zh) | 2020-01-10 |
WO2018215912A1 (en) | 2018-11-29 |
CN110679114B (zh) | 2021-08-06 |
JP7038143B2 (ja) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112018001290T5 (de) | Verfahren zum Schätzen der Löschbarkeit von Datenobjekten | |
DE112020003820T5 (de) | Erkennung von Anomalien und Abweichungen unter Verwendung eines domänenindizierten Einschränkungs-Repository | |
DE69923435T2 (de) | System und verfahren zur optimierung der leistungskontrolle von komplexen informationstechnologiesystemen | |
DE69934102T2 (de) | System und verfahren zur model-mining von komplexen informationtechnologiesystemen | |
DE112019002948T5 (de) | Feststellen einer optimalen speicherumgebung für datensätze und für das migrieren von datensätzen | |
DE112020000227T5 (de) | Maschinelles lernen eines computermodells auf grundlage von korrelationenvon trainingsdaten mit leistungstrends | |
DE112011104487T5 (de) | Verfahren und System zur prädiktiven Modellierung | |
DE112018003081T5 (de) | Optimieren von benutzerzufriedenheit beim schulen eines kognitiven hierarchischen speicherverwaltungssystems | |
DE112015000218T5 (de) | Verfahren, System und Computerprogramm zum Abtasten einer Mehrzahl von Speicherbereichen in einem Arbeitsspeicher nach einer spezifizierten Anzahl von Ergebnissen | |
DE112017007656T5 (de) | Verschobene aktualisierung von datenbank-hashcode in einer blockchain | |
DE112018005725T5 (de) | Daten-deidentifikation auf der grundlage eines erkennens von zulässigen konfigurationen für daten-deidentifikationsprozesse | |
DE112021001986T5 (de) | Verfahren und System zum Verarbeiten von Datenaufzeichnungen | |
DE102014116369A1 (de) | Verwaltung von sprachmarkern bei internationaler datenspeicherung | |
DE102016204710A1 (de) | Sichern und Wiederherstellen von Klondaten | |
DE102012223167A1 (de) | Gemeinsame Nutzung von Artefakten zwischen kollaborativen Systemen | |
DE112020005732T5 (de) | Erzeugen von trainingsdaten zur objekterkennung | |
DE112020000554T5 (de) | Verfahren zum zugreifen auf datensätze eines stammdatenverwaltungssystems | |
DE112021006604T5 (de) | Dynamisches in-rangordnung-bringen von facetten | |
DE112021003262T5 (de) | Erkennen von quelldatensätzen, die zu einem transferlernverfahren für eine zieldomäne passen | |
DE112021000338T5 (de) | Auslagern der statistikerfassung | |
DE112020000545T5 (de) | Deep-forest-modell-entwicklung und -training | |
DE112020002155T5 (de) | Einwilligung zu gemeinsamen personenbezogenen informationen | |
DE102021124256A1 (de) | Mobile ki | |
DE112018005620T5 (de) | Auftragsverwaltung in einem datenverarbeitungssystem | |
DE112018005891T5 (de) | Bibliotheks-Screening auf Krebswahrscheinlichkeit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: H04L0012160000 Ipc: G06F0016000000 |
|
R084 | Declaration of willingness to licence |