DE102021123132A1 - Erkennen von assoziationen zwischen datensätzen - Google Patents

Erkennen von assoziationen zwischen datensätzen Download PDF

Info

Publication number
DE102021123132A1
DE102021123132A1 DE102021123132.9A DE102021123132A DE102021123132A1 DE 102021123132 A1 DE102021123132 A1 DE 102021123132A1 DE 102021123132 A DE102021123132 A DE 102021123132A DE 102021123132 A1 DE102021123132 A1 DE 102021123132A1
Authority
DE
Germany
Prior art keywords
attribute
value
computer
data
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021123132.9A
Other languages
English (en)
Inventor
Manish Anand Bhide
Pranay Kumar Lohia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE102021123132A1 publication Critical patent/DE102021123132A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine Computereinheit identifiziert (i) einen Datensatz, (ii) einen Satz von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) eine unerwünschte Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben. Die Datenverarbeitungseinheit stellt fest, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributwerten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft allgemein das Gebiet des Analysierens von großen Datensätzen und insbesondere ein Erkennen von Assoziationen zwischen Attributen in Datensätzen.
  • Im Allgemeinen tendieren Computerentscheidungsalgorithmen bei großen Datensätzen gegebenenfalls dazu, eine bestimmte Gruppe von Dateneinträgen routinemäßig gegenüber anderen Gruppen von Dateneinträgen auszuwählen. Die unverhältnismäßige Auswahl von Dateneinträgen kann eine unterschiedliche Auswirkung verursachen und auch als von anderen Parametern abhängig betrachtet werden.
  • KURZDARSTELLUNG
  • Ausführungsformen der vorliegenden Erfindung stellen ein Verfahren, ein System und ein Programmprodukt bereit.
  • Eine erste Ausführungsform umfasst ein Verfahren. Ein oder mehrere Prozessoren identifizieren (i) einen Datensatz, (ii) einen Satz von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) eine unerwünschte Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben. Der eine oder die mehreren Prozessoren stellen fest, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell: (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributen und Werten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.
  • Eine zweite Ausführungsform umfasst ein Computerprogrammprodukt. Das Computerprogrammprodukt enthält einen oder mehrere durch einen Computer lesbare Speichermedien und Programmanweisungen, die auf dem einen oder den mehreren durch einen Computer lesbaren Speichermedien gespeichert sind. Zu den Programmanweisungen gehören Programmanweisungen, um (i) einen Datensatz, (ii) einen Satz von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) eine unerwünschte Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben, zu identifizieren. Zu den Programmanweisungen gehören Programmanweisungen, um festzustellen, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell: (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributen und Werten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.
  • Eine dritte Ausführungsform umfasst ein Computersystem. Das Computersystem enthält einen oder mehrere Computerprozessoren, ein oder mehrere durch einen Computer lesbare Speichermedien und auf den durch einen Computer lesbaren Speichermedien gespeicherte Programmanweisungen zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren. Zu den Programmanweisungen gehören Programmanweisungen, um (i) einen Datensatz, (ii) einen Satz von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) eine unerwünschte Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben, zu identifizieren. Zu den Programmanweisungen gehören Programmanweisungen, um festzustellen, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell: (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributen und Werten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.
  • Figurenliste
    • 1 ist eine Funktionsübersicht, die eine Datenverarbeitungsumgebung, in der eine Datenverarbeitungseinheit Assoziationen zwischen Dateneinträgen feststellt, gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung veranschaulicht.
    • 2 veranschaulicht operative Prozesse des Ausführens eines Systems zur Feststellung von zugeordneten Werten in großen Datensätzen auf einer Datenverarbeitungseinheit innerhalb der Umgebung von 1 gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung.
    • 3 stellt eine Cloud-Computing-Umgebung gemäß mindestens einer einzelnen Ausführungsform der vorliegenden Erfindung dar.
    • 4 stellt Abstraktionsmodellschichten gemäß mindestens einer einzelnen Ausführungsform der vorliegenden Erfindung dar.
    • 5 stellt ein Blockschaubild von Komponenten von einer oder mehreren Datenverarbeitungseinheiten innerhalb der in 1 dargestellten Datenverarbeitungsumgebung gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung dar.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Ausführliche Ausführungsformen der vorliegenden Erfindung werden hierin unter Bezugnahme auf die beigefügten Zeichnungen offenbart. Es sei von vornherein klargestellt, dass die offenbarten Ausführungsformen lediglich veranschaulichend für mögliche Ausführungsformen der vorliegenden Erfindung sind und verschiedene Formen annehmen können. Ferner soll jedes der in Verbindung mit den verschiedenen Ausführungsformen gegebene Beispiel veranschaulichend und nicht einschränkend sein. Des Weiteren sind die Figuren nicht unbedingt maßstabsgetreu, einige Merkmale können übertrieben sein, um Einzelheiten von bestimmten Komponenten zu zeigen. Daher sind bestimmte strukturelle und funktionale Einzelheiten, die hierin offenbart werden, nicht als einschränkend, sondern lediglich als eine repräsentative Grundlage auszulegen, um einen Fachmann die verschiedentliche Nutzung der vorliegenden Erfindung zu lehren.
  • Verweise in der Spezifikation auf „eine einzelne Ausführungsform“, „eine Ausführungsform“, „eine beispielhafte Ausführungsform“ usw. geben an, dass die beschriebene Ausführungsform ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft enthalten kann, jede Ausführungsform das/die bestimmte Merkmal, Struktur oder Eigenschaft gegebenenfalls aber nicht unbedingt enthält. Überdies beziehen sich diese Formulierungen nicht zwangsläufig auf die gleiche Ausführungsform. Des Weiteren, wenn ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit einer Ausführungsform beschrieben wird, versteht es sich, dass es innerhalb des Wissens des Fachmanns liegt, ein(e) solche(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit anderen Ausführungsformen vorzugeben, unabhängig davon, ob es/sie ausdrücklich beschrieben ist oder nicht.
  • Ausführungsformen der vorliegenden Erfindung erkennen, dass Computerentscheidungsalgorithmen große Datensätze analysieren und Ausgabeklassen für diese Daten auf der Grundlage einer Vielfalt an Faktoren oder Attributen feststellen können. In einigen Fällen ziehen es die Benutzer und/oder Entwickler von solchen Algorithmen gegebenenfalls vor, unterschiedliche Ausgabeklasse-Feststellungen für bestimmte Werte von bestimmten Attributen aus beliebigen von einer großen Vielfalt an Gründen zu vermeiden. In vielen Fällen genügt ein einzelner Wert eines einzelnen Attributs möglicherweise jedoch nicht, um eine unterschiedliche Ausgabeklasse-Feststellung vollständig zu charakterisieren, und Werte von zusätzlichen zugehörigen Attributen können sich als mit dem einzelnen Wert des einzelnen Attributs korreliert erweisen, sind aber für den Benutzer möglicherweise nicht unmittelbar erkennbar. Ausführungsformen der vorliegenden Erfindung verwenden Maschinenlogik, um solche zugeordneten Attribute und Werte in großen Datensätzen zu identifizieren. Die resultierenden Identifizierungen können dann verwendet werden, um die Wirksamkeit und Fairness von Computerentscheidungsalgorithmen zu verbessern, um in Zukunft Entscheidungen unter Verwendung dieser großen Datensätze zu treffen.
  • Ausführungsformen der vorliegenden Erfindung stellen technologische Verbesserungen gegenüber bekannten Computerentscheidungs- und/oder Assoziationserkennungssystemen auf mehrere bedeutsame Arten bereit. Zum Beispiel verbessern sich verschiedene Ausführungsformen der vorliegenden Erfindung gegenüber vorhandenen Systemen, indem sie nützlichere Ergebnisse bereitstellen - d.h., Entscheidungen, die sich näher an gewünschten Attributen orientieren, und Identifizierungen von zugeordneten Attributen, die genauer sind als bekannte Systeme, sind für Endbenutzer nützlicher und stellen somit Verbesserungen gegenüber vorhandenen Systemen dar. Darüber hinaus jedoch stellen verschiedene Ausführungsformen der vorliegenden Erfindung auch wichtige Verbesserungen der technologischen Operationen der zugrunde liegenden Systeme bereit, die diese Ergebnisse erzeugen. Zum Beispiel kann ein Erkennen von zugeordneten Attributen in großen Datensätzen (oder „Big Data“-Umgebungen) eine sehr prozessor- und speicherintensive Operation sein und Ausführungsformen der vorliegenden Erfindung verringern die im Vergleich zu herkömmlichen Systemen benötigte Menge an Prozessor- und Speicherressourcen, indem sie eine effizientere Attributerkennung bereitstellen. Des Weiteren verringern verschiedene Ausführungsformen der vorliegenden Erfindung die Anzahl inakzeptabler Entscheidungen, die von solchen Algorithmen erzeugt werden, indem sie Attributerkennungsmerkmale von Ausführungsformen der vorliegenden Erfindung verwenden, um Computerentscheidungsalgorithmen zu verbessern, und reduzieren so die Menge an Entscheidungen, die verworfen werden müssen, was wiederum zu einem effizienteren Verbrauch von Datenverarbeitungsressourcen führt.
  • Die vorliegende Erfindung wird nun unter Bezugnahme auf die Figuren ausführlich beschrieben.
  • 1 ist eine Funktionsübersicht, die eine mit 100 allgemein bezeichnete Datenverarbeitungsumgebung gemäß einer einzelnen Ausführungsform der vorliegenden Erfindung veranschaulicht. Die Datenverarbeitungsumgebung 100 enthält ein Computersystem 120, eine Client-Einheit 130 und ein über ein Netzwerk 110 angeschlossenes Speicherbereichsnetzwerk (SAN, storage area network) 140. Das Computersystem enthält ein Assoziationserkennungsprogramm 122 und eine Computerschnittstelle 124. Die Client-Einheit 130 enthält eine Client-Anwendung 132 und eine Client-Schnittstelle 134. Das Speicherbereichsnetzwerk (SAN) 140 enthält eine Server-Anwendung 142 und eine Datenbank 144.
  • In verschiedenen Ausführungsformen der vorliegenden Erfindung ist das Computersystem 120 eine Datenverarbeitungseinheit, bei der es sich um eine eigenständige Einheit, einen Server, einen Laptop-Computer, einen Tablet-Computer, einen Netbook-Computer, einen Personal Computer (PC), einen elektronischen Assistenten (PDA, personal digital assistant), einen Desktop-Computer oder ein beliebiges programmierbares elektronisches Gerät handeln kann, das Daten empfangen, senden und verarbeiten kann. Im Allgemeinen stellt das Computersystem 120 ein beliebiges programmierbares elektronisches Gerät oder eine Kombination aus programmierbaren elektronischen Geräten dar, die maschinenlesbare Programmanweisungen und Übertragungen mit verschiedenen anderen Computersystemen (nicht gezeigt) ausführen können. In einer weiteren Ausführungsform stellt das Computersystem 120 ein Datenverarbeitungssystem dar, das Cluster-Computer und -Komponenten verwendet, um die Funktion eines einzelnen Pools von nahtlosen Ressourcen zu übernehmen. Im Allgemeinen kann es sich bei dem Computersystem 120 um eine beliebige Datenverarbeitungseinheit oder eine Kombination aus Einheiten mit Zugriff auf verschiedene andere Datenverarbeitungssysteme (nicht gezeigt) handeln und es kann das Assoziationserkennungsprogramm 122 und die Computerschnittstelle 124 ausführen. Das Computersystem 120 kann interne und externe Hardwarekomponenten enthalten, wie unter Bezugnahme auf 6 ausführlicher beschrieben ist.
  • In dieser beispielhaften Ausführungsform werden das Assoziationserkennungsprogramm 122 und die Computerschnittstelle 124 auf dem Computersystem 120 gespeichert. In weiteren Ausführungsformen werden das Assoziationserkennungsprogramm 122 und die Computerschnittstelle 124 jedoch extern gespeichert und auf sie wird durch ein Übertragungsnetzwerk, wie beispielsweise das Netzwerk 110, zugegriffen. Bei dem Netzwerk 110 kann es sich zum Beispiel um ein lokales Netz (LAN, local area network), ein Weitverkehrsnetz (WAN, wide area network), wie beispielsweise das Internet, oder eine Kombination der beiden handeln und es kann eine drahtgebundene, drahtlose, Lichtwellenleiter- oder eine beliebige andere in der Technik bekannte Verbindung umfassen. Im Allgemeinen kann es sich bei dem Netzwerk 110 um eine beliebige Kombination aus Verbindungen und Protokollen handeln, die Übertragungen zwischen dem Computersystem 120, der Client-Einheit 130 und dem SAN 140 sowie verschiedenen anderen Computersystemen (nicht gezeigt) gemäß gewünschten Ausführungsformen der vorliegenden Erfindung unterstützen.
  • In der in 1 dargestellten Ausführungsform hat das Assoziationserkennungsprogramm 122 zumindest zum Teil Zugriff auf die Client-Anwendung 132 und kann auf dem Computersystem 120 gespeicherte Daten an die Client-Einheit 130, das SAN 140 und verschiedene andere Computersysteme (nicht gezeigt) übertragen. Genauer gesagt, das Assoziationserkennungsprogramm 122 definiert einen Benutzer des Computersystems 120, der Zugriff auf Daten hat, die in der Client-Einheit 130 und/oder der Datenbank 144 gespeichert sind.
  • Das Assoziationserkennungsprogramm 122 ist in 1 zur veranschaulichenden Einfachheit dargestellt. In verschiedenen Ausführungsformen der vorliegenden Erfindung stellt das Assoziationserkennungsprogramm 122 logische Operationen dar, die auf dem Computersystem 120 ausgeführt werden, wobei die Computerschnittstelle 124 die Möglichkeit verwaltet, diese logischen Operationen anzuzeigen, die gemäß dem Assoziationserkennungsprogramm 122 verwaltet und ausgeführt werden. In einigen Ausführungsformen stellt das Assoziationserkennungsprogramm 122 ein System dar, das Daten verarbeitet und analysiert, um Assoziationen zwischen Werten von verschiedenen Attributen zu erkennen.
  • Das Computersystem 120 enthält die Computerschnittstelle 124. Die Computerschnittstelle 124 stellt eine Schnittstelle zwischen dem Computersystem 120, der Client-Einheit 130 und dem SAN 140 bereit. In einigen Ausführungsformen kann die Computerschnittstelle 124 eine grafische Benutzeroberfläche (GUI) oder eine Webbenutzerschnittstelle (WUI) sein und Text, Dokumente, Webbrowser, Fenster, Benutzeroptionen, Anwendungsschnittstellen und Anweisungen für eine Operation anzeigen, und sie enthält die Informationen (wie beispielsweise Grafik, Text und Ton), die ein Programm einem Benutzer übergibt, sowie die Steuersequenzen, die der Benutzer nutzt, um das Programm zu steuern. In einigen Ausführungsformen greift das Computersystem 120 auf Daten zu, die von der Client-Einheit 130 und/oder dem SAN 140 über eine clientbasierte Anwendung übertragen wurden, die auf dem Computersystem 120 läuft. Zum Beispiel enthält das Computersystem 120 eine mobile Anwendungssoftware, die eine Schnittstelle zwischen dem Computersystem 120, der Client-Einheit 130 und dem SAN 140 bereitstellt. In verschiedenen Ausführungsformen überträgt das Computersystem 120 die GUI oder WUI an die Client-Einheit 130 zur Anweisung und Verwendung durch einen Benutzer der Client-Einheit 130.
  • In verschiedenen Ausführungsformen ist die Client-Einheit 130 eine Datenverarbeitungseinheit, bei der es sich um eine eigenständige Einheit, einen Server, einen Laptop-Computer, einen Tablet-Computer, einen Netbook-Computer, einen Personal Computer (PC), einen elektronischen Assistenten (PDA, personal digital assistant), einen Desktop-Computer oder ein beliebiges programmierbares elektronisches Gerät handeln kann, das Daten empfangen, senden und verarbeiten kann. Im Allgemeinen stellt das Computersystem 120 ein beliebiges programmierbares elektronisches Gerät oder eine Kombination aus programmierbaren elektronischen Geräten dar, die maschinenlesbare Programmanweisungen und Übertragungen mit verschiedenen anderen Computersystemen (nicht gezeigt) ausführen können. In einer weiteren Ausführungsform stellt das Computersystem 120 ein Datenverarbeitungssystem dar, das Cluster-Computer und - Komponenten verwendet, um die Funktion eines einzelnen Pools von nahtlosen Ressourcen zu übernehmen. Im Allgemeinen kann es sich bei dem Computersystem 120 um eine beliebige Datenverarbeitungseinheit oder eine Kombination aus Einheiten mit Zugriff auf verschiedene andere Datenverarbeitungssysteme (nicht gezeigt) handeln und es kann die Client-Anwendung 132 und die Client-Schnittstelle 134 ausführen. Die Client-Einheit 130 kann interne und externe Hardwarekomponenten enthalten, wie unter Bezugnahme auf 5 ausführlicher beschrieben ist.
  • Die Client-Anwendung 132 ist in 1 zur veranschaulichenden Einfachheit dargestellt. In verschiedenen Ausführungsformen der vorliegenden Erfindung stellt die Client-Anwendung 132 logische Operationen dar, die auf der Client-Einheit 130 ausgeführt werden, wobei die Client-Schnittstelle 134 die Möglichkeit verwaltet, diese verschiedenen Ausführungsformen anzuzeigen, und die Client-Anwendung 132 definiert einen Benutzer der Client-Einheit 130, der Zugriff auf Daten hat, die in dem Computersystem 120 und/oder in der Datenbank 144 gespeichert sind.
  • Bei dem Speicherbereichsnetzwerk (SAN) 140 handelt es sich um ein Speichersystem, das die Server-Anwendung 142 und die Datenbank 144 enthält. Das SAN 140 kann eine oder mehrere, ohne darauf beschränkt zu sein, Datenverarbeitungseinheiten, Server, Server-Cluster, Webserver, Datenbanken und Speichereinheiten enthalten. Das SAN 140 wird betrieben, um mit dem Computersystem 120, der Client-Einheit 130 und verschiedenen anderen Datenverarbeitungseinheiten (nicht gezeigt) über ein Netzwerk, wie beispielsweise das Netzwerk 110, Daten auszutauschen. Zum Beispiel tauscht das SAN 140 mit dem Assoziationserkennungsprogramm 122 Daten aus, um Daten zwischen dem Computersystem 120, der Client-Einheit 130 und verschiedenen anderen Datenverarbeitungseinheiten (nicht gezeigt), die nicht mit dem Netzwerk 110 verbunden sind, zu übertragen. Das SAN 140 kann interne und externe Hardwarekomponenten enthalten, wie unter Bezugnahme auf 6 beschrieben ist. Ausführungsformen der vorliegenden Erfindung erkennen, dass 1 eine beliebige Anzahl von Datenverarbeitungseinheiten, Servern, Datenbanken und/oder Speichereinheiten enthalten kann und die vorliegende Erfindung nicht nur auf das in 1 Dargestellte beschränkt ist. Somit sind in einigen Ausführungsformen einige der Merkmale des Computersystems 120 als Teil des SAN 140 und/oder einer anderen Datenverarbeitungseinheit enthalten.
  • Ferner stellen das SAN 140 und das Computersystem 120 in einigen Ausführungsformen eine Cloud-Computing-Plattform dar oder sind Teil einer Cloud-Computing-Plattform. Beim Cloud-Computing handelt es sich um eine Modell- oder Servicebereitstellung, um einen problemlosen bedarfsgesteuerten Netzwerkzugriff auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerken, Netzwerkbandbreite, Servern, Verarbeitung, Hauptspeichern, Speichern, Anwendungen, virtuellen Maschinen und (einem) Service) zu ermöglichen, die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter eines Service schnell bereitgestellt und freigegeben werden können. Ein Cloud-Modell kann Eigenschaften wie beispielsweise On-Demand Self-Service, Broad Network Access, Resource Pooling, Rapid Elasticity und Messung der Service-Nutzung enthalten, es kann durch Service-Modelle dargestellt werden, darunter ein Platform-as-a-Service-(PaaS-)Modell, ein Infrastructure-as-a-Service-(IaaS)-Modell und ein Software-as-a-Service-(SaaS-)Modell, und es kann als verschiedene Einsatzmodelle als Private Cloud, Community Cloud, Public Cloud und Hybrid Cloud ausgeführt sein. In verschiedenen Ausführungsformen stellt das SAN 140 eine Datenbank oder Website dar, die, ohne darauf beschränkt zu sein, Wettermustern zugeordnete Daten enthält.
  • Das SAN 140 und das Computersystem 120 sind in 1 zur veranschaulichenden Einfachheit dargestellt. Es sei jedoch von vornherein klargestellt, dass das SAN 140 und das Computersystem 120 in verschiedenen Ausführungsformen eine beliebige Anzahl von Datenbanken enthalten kann, die gemäß der Funktionalität des Assoziationserkennungsprogramms 122 und der Server-Anwendung 142 verwaltet werden. Im Allgemeinen stellt die Datenbank 144 Daten dar und die Server-Anwendung 142 stellt Code dar, der eine Möglichkeit zur Verwendung und Änderung der Daten bereitstellt. In einer alternativen Ausführungsform kann das Assoziationserkennungsprogramm 122 auch eine beliebige Kombination aus den vorstehend erwähnten Merkmalen darstellen, bei der die Server-Anwendung 142 Zugriff auf die Datenbank 144 hat. Um verschiedene Aspekte der vorliegenden Erfindung zu veranschaulichen, werden Beispiele der Server-Anwendung 142 gegeben, bei denen das Assoziationserkennungsprogramm 122 eine oder mehrere, ohne darauf beschränkt zu sein, Feststellungen von Assoziationen zwischen Attributen darstellt.
  • In einigen Ausführungsformen sind die Server-Anwendung 142 und die Datenbank 144 im SAN 140 gespeichert. In verschiedenen Ausführungsformen können die Server-Anwendung 142 und die Datenbank 144 jedoch extern gespeichert sein und auf sie wird durch ein Übertragungsnetzwerk, wie beispielsweise das Netzwerk 110, zugegriffen, wie vorstehend erläutert wurde.
  • Zu Ausführungsformen der vorliegenden Erfindung gehört ein Computerentscheidungssystem, das Ausgabeklassen Dateneinträge auf der Grundlage von Werten der jeweiligen Attribute der Dateneinträge zuweist. In verschiedenen Ausführungsformen identifiziert das Computersystem 120 Ausgabeklasse-Feststellungen, die in Bezug auf einen Wert eines bestimmten Attributs befangen oder voreingenommen sind. Zum Beispiel identifiziert das Assoziationserkennungsprogramm 122 in verschiedenen Ausführungsformen, ob zwei oder mehr Gruppen von Dateneinträgen aufgrund dessen, dass die Gruppen von Dateneinträgen unterschiedliche Werte für das bestimmte Attribut haben, ein unterschiedliches Klassifikationsergebnis (z.B. Ausgabeklasse) empfangen. Wenn zum Beispiel das Verhältnis eines günstigen Ergebnisses einer ersten Gruppe von Dateneinträgen, die einen ersten Wert eines bestimmten Attributs hat, geteilt durch das Verhältnis eines günstigen Ergebnisses einer zweiten Gruppe von Dateneinträgen, die einen zweiten Wert des bestimmten Attributs hat, oder umgekehrt, weniger als 0,8 beträgt, stellt das Assoziationserkennungsprogramm 122 in verschiedenen Ausführungsformen fest, dass eine unterschiedliche Auswirkung aufgetreten ist.
  • Ausführungsformen der vorliegenden Erfindung sehen vor, dass Attribute in einigen Fällen geschützte Kategorien (oder geschützte Klassen) enthalten können, darunter, ohne darauf beschränkt zu sein, Alter, Geschlecht, Rasse, nationale Herkunft, Religion usw., und dass das System Gruppen innerhalb von geschützten Kategorien identifizieren kann, die unterschiedliche Klassifikationen empfangen. In einer einzelnen Ausführungsform zum Beispiel, in der Alter - eine geschützte Klasse - das „bestimmte Attribut“ ist, sind, wenn das Verhältnis von Immobiliendarlehen, die Einzelpersonen unter fünfundzwanzig (25) Jahren bereitgestellt werden, im Vergleich zu Immobiliendarlehen, die Einzelpersonen, die fünfundzwanzig (25) Jahre alt oder älter sind, bereitgestellt werden, weniger als 0,8 beträgt, Einzelpersonen unter 25 Jahren unterschiedlich betroffen.
  • In verschiedenen Ausführungsformen der vorliegenden Erfindung stellt das Assoziationserkennungsprogramm 122 fest, ob Gruppen, die unterschiedliche Klassifikationsentscheidungen empfangen, über eine bekannte Kombination aus Wert/Attribut hinaus andere zugeordnete Attributwerte enthalten, die zu der unterschiedlichen Klassifikationsentscheidung beitragen. In diesen Ausführungsformen kann der Attributwert, der bekanntermaßen zu der unterschiedlichen Klassifikationsentscheidung (wie beispielsweise das unter 25 Jahren liegende Alter) beiträgt, von einem Benutzer bereitgestellt werden, und das Assoziationserkennungsprogramm 122 stellt dann zusätzliche Attribute und Werte fest, die dem bereitgestellten Attributwert möglicherweise zugeordnet sind, und antwortet dem Benutzer mit einer Identifizierung der festgestellten zusätzlichen Attribute und Werte.
  • In verschiedenen Ausführungsformen empfängt das Assoziationserkennungsprogramm 122 einen großen Datensatz, der eine Mehrzahl von Dateneinträgen enthält, die bestimmte Attribute und jeweilige Werte haben. In verschiedenen Ausführungsformen empfängt das Assoziationserkennungsprogramm 122 auch Eingabedaten von einem Benutzer, zu denen, ohne unbedingt darauf beschränkt zu sein, (i) ein bestimmtes Attribut, bei dem voreingenommene/unterschiedliche Klassifikationsentscheidungen unerwünscht sind (z.B. Alter), (ii) eine erste Gruppe von Dateneinträgen, die einen ersten Wert (oder eine Gruppe von Werten) des bestimmten Attributs (z.B. unter 25) hat, (iii) eine zweite Gruppe von Dateneinträgen, die einen zweiten Wert (oder eine Gruppe von Werten) des bestimmten Attributs (z.B. 25 oder älter als 25) hat, und (iv) eine Identifizierung, welche Klassifikation(en) (d.h. Ausgabeklasse(n)) als günstig (z.B. Genehmigung eines Immobiliendarlehens) betrachtet werden, gehören.
  • In verschiedenen Ausführungsformen analysiert das Assoziationserkennungsprogramm 122 die Benutzereingabe, um zu identifizieren, ob ein oder mehrere zusätzliche Attribute dem bestimmten Attribut in Bezug auf den Empfang einer ungünstigen Klassifikationsentscheidung zugeordnet sind. Anders ausgedrückt, das Assoziationserkennungsprogramm 122 stellt fest, ob ein oder mehrere zusätzliche Attribute, wenn sie mit dem bestimmten Attribut kombiniert sind, zu einer noch höheren Wahrscheinlichkeit führen, dass eine ungünstige Klassifikationsentscheidung empfangen wird.
  • In verschiedenen Ausführungsformen verwendet das Assoziationserkennungsprogramm 122 Association Rule Learning, um eine Assoziation zwischen den Werten eines bestimmten Attributs und eines zweiten Attributs bezogen auf die Ausgabeklasse zu identifizieren. In verschiedenen Ausführungsformen umfasst Association Rule Learning ein regelbasiertes Machine-Learning-Modell, um Beziehungen zwischen solchen zugeordneten Attributen und Werten in großen Datensätzen zu identifizieren. In verschiedenen Ausführungsformen analysiert das Assoziationserkennungsprogramm 122 die großen Datensätze und identifiziert die Werte des bestimmten Attributs und Werte von zusätzlichen Attributen in den Dateneinträgen sowie die Feststellung der Ausgabeklasse für jeden Wert der bestimmten Attribute und der zusätzlichen Attribute. In verschiedenen Ausführungsformen erzeugt das Assoziationserkennungsprogramm 122 eine Assoziationshäufigkeitsübersicht der verschiedenen Attribute und ihrer Werte. In verschiedenen Ausführungsformen verwendet das Assoziationserkennungsprogramm 122 einen Liftwert, um festzustellen, ob ein erster Wert des bestimmten Attributs (des „ersten Attributs“) zum Beispiel eine Assoziation mit einem dritten Wert eines zweiten Attributs hat. In verschiedenen Ausführungsformen wird der Liftwert durch die Gleichung (1) unten berechnet. Ausführungsformen der vorliegenden Erfindung sehen vor, dass ein hoher Liftwert eine hohe Assoziation zwischen dem ersten Wert des ersten Attributs und dem dritten Wert des zweiten Attributs angibt. D a t e n e i n t r a ¨ g e ( d . h . Z e i l e n ) , b e i d e n e n d e r e r s t e W e r t u n d d e r d r i t t e W e r t g l e i c h z e i t i g a u f t r a t e n ( D a t e n e i n t r a ¨ g e ( d . h . Z e i l e n ) , b e i d e n e n d e r e r s t e W e r t a u f t r a t ) × ( D a t e n e i n t r a ¨ g e ( d . h . Z e i l e n ) , b e i d e n e n d e r d r i t t e W e r t a u f t r a t )
    Figure DE102021123132A1_0001
  • In verschiedenen Ausführungsformen berechnet das Assoziationserkennungsprogramm 122 den Liftwert und analysiert den Liftwert, um festzustellen, ob eine hohe Assoziation oder eine niedrige Assoziation zwischen dem ersten Wert des ersten Attributs (dem „angegebenen Attribut“) und dem dritten Wert des zweiten Attributs vorhanden ist. In verschiedenen Ausführungsformen berechnet das Assoziationserkennungsprogramm 122 des Weiteren Liftwerte zwischen dem ersten Wert des ersten Attributs und Werten einer Mehrzahl von anderen zusätzlichen Attributen. In verschiedenen Ausführungsformen identifiziert das Assoziationserkennungsprogramm 122 einen Schwellen-Liftwert und wählt die zugeordneten Attribute, deren Liftwerte den Schwellenwert überschreiten, zur weiteren Verarbeitung aus. In verschiedenen Ausführungsformen findet der gleiche Prozess für den zweiten Wert des ersten Attributs statt, was zur Auswahl von zugeordneten Attributen führt, deren hohe Liftwerte den Schwellenwert in Bezug auf den zweiten Wert des ersten Attributs überschreiten.
  • In verschiedenen Ausführungsformen führt das Assoziationserkennungsprogramm 122 dann Voreingenommenheitsanalysen durch an: (i) dem ersten Wert des ersten Attributs und einem jeden der identifizierten Werte für seine jeweils ausgewählten zugeordneten Attribute, (ii) dem zweiten Wert des ersten Attributs und einem jeden der identifizierten Werte für seine jeweils ausgewählten zugeordneten Attribute. In verschiedenen Ausführungsformen verwenden diese Voreingenommenheitsanalysen die gleiche Metrik, die auch zur Feststellung von Voreingenommenheit in den Werten des ersten Attributs verwendet wird. Die Ergebnisse dieser Analysen identifizieren, ob die zugeordneten Attribute auch eine voreingenommene Feststellung in Bezug auf die Ausgabeklasse empfangen.
  • In verschiedenen Ausführungsformen identifiziert das Assoziationserkennungsprogramm 122 die zugeordneten Attribute, die voreingenommene Feststellungen empfangen, und antwortet auf die Benutzeranforderung, indem es dem Benutzer der Client-Einheit 130 eine Zusammenfassung bereitstellt. In verschiedenen Ausführungsformen weist die Zusammenfassung den Benutzer an, die Daten weiter zu analysieren und eine informierte Entscheidung über verschiedene Parameter zu treffen, die sich auf die identifizierte voreingenommene Feststellung positiv auswirken könnten. Ausführungsformen der vorliegenden Erfindung sehen vor, dass das Anleiten des Benutzers bereitgestellt wird, um es dem Benutzer zu ermöglichen, eine unvoreingenommene Feststellung der Ausgabeklasse für die Attributwerte zu treffen, die als dem ersten und dem zweiten Wert des ersten Attributs zugeordnet festgestellt werden.
  • 2 ist ein Ablaufplan 200, der Operationen des Assoziationserkennungsprogramms 122 in der Datenverarbeitungsumgebung 100 gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung darstellt. 2 stellt auch bestimmte Interaktionen zwischen dem Assoziationserkennungsprogramm 122 und der Client-Anwendung 132 dar. In einigen Ausführungsformen umfassen die in 2 dargestellten Operationen die Ausgabe von bestimmten logischen Operationen des Assoziationserkennungsprogramms 122, das auf dem Computersystem 120 ausgeführt wird. Es ist darauf hinzuweisen, dass 2 eine einzelne Ausführung veranschaulicht und keine Einschränkungen in Bezug auf die Umgebungen bedeutet, in denen verschiedene Ausführungsformen ausgeführt werden können. An der dargestellten Umgebung können viele Änderungen vorgenommen werden. In einer einzelnen Ausführungsform kann die Reihe von Operationen in 2 in einer beliebigen Reihenfolge durchgeführt werden. In einer weiteren Ausführungsform kann die in 2 dargestellte Reihe von Operationen an einer beliebigen Operation beendet werden. Zusätzlich zu den zuvor erwähnten Merkmalen können beliebige Operationen, die in 2 dargestellt sind, jederzeit wieder aufgenommen werden.
  • In der Operation 202 empfängt das Assoziationserkennungsprogramm 122 eine Benutzeranforderung bezüglich Feststellungen, die für einen Datensatz getroffen wurden. In verschiedenen Ausführungsformen empfängt das Assoziationserkennungsprogramm 122 eine Anforderung von einem Benutzer der Client-Einheit 130, um zu identifizieren, ob eine Assoziation zwischen Werten eines ersten Attributs des Datensatzes und Werten von anderen Attributen des Datensatzes vorhanden ist, wobei bereits festgestellt wurde, dass die Werte des ersten Attributs voreingenommene Ausgabeklasse-Feststellungen empfangen, und wobei der Benutzer identifizieren möchte, ob beliebige andere Attributwerte zu den voreingenommenen Ausgabeklasse-Feststellungen beitragen. In verschiedenen Ausführungsformen stellt der Benutzer Eingabedaten bereit, darunter (i) die Ausgabeklasse(n), die als günstig betrachtet wird/werden, (ii) das erste Attribut, (iii) einen ersten Wert des ersten Attributs, der unverhältnismäßig zu ungünstigen Ausgabeklasse-Feststellungen führt, und (iv) einen zweiten Wert des ersten Attributs, der unverhältnismäßig zu günstigen Ausgabeklasse-Feststellungen führt.
  • In der Operation 204 analysiert das Assoziationserkennungsprogramm 122 die Eingabedaten. In verschiedenen Ausführungsformen führt das Assoziationserkennungsprogramm 122 unter Verwendung einer bekannten Metrik für eine Voreingenommenheitsanalyse eine Voreingenommenheitsanalyse an den Eingabedaten durch. Zum Beispiel wird mit einer Disparate-Impact-Metrik eine unterschiedliche Auswirkung festgestellt, wenn das Verhältnis von günstigen Ausgabeklasse-Feststellungen für den ersten und den zweiten Wert des ersten Attributs weniger als 0,8 beträgt. Zu weiteren Beispielen für Voreingenommenheitsanalyse-Metriken gehören, ohne darauf beschränkt zu sein, eine Statistical-Parity-Difference-Metrik, eine Equal-Opportunity-Metrik und eine Average-Odds-Metrik.
  • In verschiedenen Ausführungsformen filtert das Assoziationserkennungsprogramm 122 den Datensatz in zwei Teilsätze, (i) einen ersten Teilsatz von Dateneinträgen, der den ersten Wert des ersten Attributs hat und eine ungünstige Feststellung in Bezug auf die Ausgabeklasse empfangen hat, und (ii) einen zweiten Teilsatz von Dateneinträgen, der den zweiten Wert des ersten Attributs hat und eine günstige Feststellung in Bezug auf die Ausgabeklasse empfangen hat. In verschiedenen Ausführungsformen verwendet das Assoziationserkennungsprogramm 122 den ersten und den zweiten Teilsatz von Dateneinträgen, um zu identifizieren, ob es eine Assoziation zwischen den identifizierten Werten des ersten Attributs und einem oder mehreren zugeordneten Attributen (d.h. einem zweiten Attribut) in Bezug auf eine voreingenommene Ausgabeklasse-Feststellung gibt. Ausführungsformen der vorliegenden Erfindung sehen vor, dass das Filtern der Datensätze nicht auf das vorstehend Erläuterte beschränkt ist und dass die Datensätze auf der Grundlage ihrer jeweiligen Attributwerte und/oder Ausgabeklasse-Feststellungen eine beliebige Kombination von Dateneinträgen enthalten können.
  • In der Operation 206 führt das Assoziationserkennungsprogramm 122 ein Assoziationsregel-Mining-Modell an dem ersten Teilsatz von Dateneinträgen und dem zweiten Teilsatz von Dateneinträgen aus. In verschiedenen Ausführungsformen trainiert das Assoziationserkennungsprogramm 122 das Assoziationsregel-Mining, indem es bekannte Datensätze und ihre jeweiligen Assoziationen als Trainingsdaten verwendet. Zum Beispiel umfassen die Trainingsdaten in verschiedenen Ausführungsformen: (i) ein Schema, das Spalten eines Datensatzes und die jeweiligen Constraints für jede der Spalten identifiziert, und (ii) eine Liste von bekannten Assoziationen zwischen Spalten.
  • In verschiedenen Ausführungsformen stellt das Assoziationserkennungsprogramm 122 dem trainierten Assoziationsregel-Mining-Modell, das auf dem Computersystem 120 ausgeführt wird, den ersten Teilsatz von Dateneinträgen und den zweiten Teilsatz von Dateneinträgen bereit, um Assoziationen zwischen den Werten des ersten Attributs und Werten von einem oder mehreren zusätzlichen Attributen zu identifizieren. In verschiedenen Ausführungsformen analysiert das trainierte Assoziationsregel-Mining-Modell die Teilsätze und stellt mindestens ein zweites Attribut fest, das den Werten des ersten Attributs in dem ersten und dem zweiten Teilsatz zugeordnet ist. Zum Beispiel ist in einer Ausführungsform ein dritter Wert des zweiten Attributs dem ersten Wert des ersten Attributs zugeordnet, und ein vierter Wert des zweiten Attributs ist dem zweiten Wert des ersten Attributs zugeordnet. In vielen Fällen stellt das trainierte Assoziationsregel-Mining-Modell eine Mehrzahl von zusätzlichen Attributen fest, darunter das zweite Attribut, die Assoziationen mit den Werten des ersten Attributs haben.
  • In der Operation 208 berechnet das Assoziationserkennungsprogramm 122 einen Liftwert für jedes der von dem Assoziationsregelmodell festgestellten zusätzlichen Attribute. In verschiedenen Ausführungsformen berechnet das Assoziationserkennungsprogramm 122 den Liftwert unter Verwendung der vorstehend erläuterten Gleichung (1). In verschiedenen Ausführungsformen berechnet das Assoziationserkennungsprogramm 122 einen Schwellen-Liftwert für die Liftwerte der zugeordneten Attribute für jeden Teilsatz des ersten und des zweiten Teilsatzes, wobei Attribute, deren Liftwerte über dem Schwellen-Liftwert liegen, zur weiteren Verarbeitung ausgewählt werden.
  • In verschiedenen Ausführungsformen identifiziert das Assoziationserkennungsprogramm 122 die zugeordneten Attribute für jeden Wert des ersten und des zweiten Werts des ersten Attributs. Zum Beispiel identifiziert das Assoziationserkennungsprogramm 122 auf der Grundlage der jeweiligen Liftwerte der zusätzlichen Attribute einen dritten Wert eines zweiten Attributs, der dem ersten Wert des ersten Attributs zugeordnet ist, und einen vierten Wert eines dritten Attributs, der dem zweiten Wert des ersten Attributs zugeordnet ist. In verschiedenen Ausführungsformen stellt das Assoziationserkennungsprogramm 122 dann fest, ob es eine Voreingenommenheit gibt, wenn der erste und der zweite Wert des ersten Attributs mit ihren jeweils zugeordneten Attributwerten kombiniert werden. In verschiedenen Ausführungsformen verwendet die Feststellung von Voreingenommenheit in dieser Operation die gleiche Metrik (zum Beispiel eine Disparate-Impact-Metrik, eine Statistical-Parity-Difference-Metrik, eine Equal-Opportunity-Metrik oder eine Average-Odds-Metrik), die auch in der vorstehend erläuterten Operation 204 verwendet wird. Zum Beispiel wird eine ungleiche Auswirkung in verschiedenen Ausführungsformen festgestellt, indem das Verhältnis von günstigen Feststellungen für die Kombination aus dem ersten Wert des ersten Attributs und dem dritten Wert des zweiten Attributs, verglichen mit den günstigen Feststellungen für die Kombination aus dem zweiten Wert des ersten Attributs und dem vierten Wert des dritten Attributs, verwendet wird. In verschiedenen Ausführungsformen ist, wenn das Verhältnis weniger als 0,8 beträgt, eine ungleiche Auswirkung vorhanden und es gibt eine Voreingenommenheit in der Feststellung von Ausgabeklassen.
  • In verschiedenen Ausführungsformen teilt das Assoziationserkennungsprogramm 122 dem Benutzer der Client-Einheit 130 die Feststellung der ungleichen Auswirkung mit. In verschiedenen Ausführungsformen überträgt das Assoziationserkennungsprogramm 122, wenn eine unterschiedliche Auswirkung vorhanden ist, eine Zusammenfassung der Daten - darunter, zum Beispiel, den ersten und den zweiten Teilsatz - an den Benutzer der Client-Einheit 130 mit Programmanweisungen, die die Client-Einheit 130 anweisen, den Benutzer anzuleiten, die Daten weiter zu analysieren und eine informierte Entscheidung über verschiedene Parameter zu treffen, die sich positiv auf die identifizierte voreingenommene Feststellung auswirken könnten. Ausführungsformen der vorliegenden Erfindung sehen vor, dass das Anleiten des Benutzers bereitgestellt wird, um es dem Benutzer zu ermöglichen, eine unvoreingenommene Feststellung der Ausgabeklasse in Bezug auf den ersten und den zweiten Wert des ersten Attributs und ihre jeweils zugeordneten Attributwerte zu treffen.
  • In einer einzelnen beispielhaften Ausführungsform wählt ein Computerentscheidungsalgorithmus Arbeitszuweisungen für verschiedene Mitarbeiter eines Unternehmens aus. In diesem Beispiel werden die Mitarbeiter in zwei Arbeitsgruppen unterteilt. In diesem Beispiel glaubt ein Manager, dass die Mitarbeiter von der einen der beiden Arbeitsgruppen eine unverhältnismäßige Anzahl von günstigen Arbeitszuweisungen empfangen, und würde gerne ein Assoziationserkennungsprogramm verwenden, um zu identifizieren, ob möglicherweise beliebige andere Attribute zu den unverhältnismäßigen Zuweisungen beitragen.
  • In der vorliegenden beispielhaften Ausführungsform empfängt das Assoziationserkennungsprogramm 122 eine Benutzeranforderung von dem Manager, um auf der Grundlage eines Datensatzes von Arbeitszuweisungen zu identifizieren, ob die beiden Werte des Attributs „Arbeitsgruppe“ - Arbeitsgruppe 1 und Arbeitsgruppe 2 - Werten von beliebigen anderen Attributen zugeordnet sind. Die Benutzeranforderung identifiziert auch, welche Arbeitszuweisungen als günstig betrachtet werden.
  • In der vorliegenden beispielhaften Ausführungsform analysiert das Assoziationserkennungsprogramm 122 die Eingabedaten - d.h. das Attribut „Arbeitsgruppe“, seine jeweiligen Werte (Arbeitsgruppe 1 und Arbeitsgruppe 2) und die Identifizierung von günstigen Zuweisungen -, um zuerst festzustellen, ob die Mitarbeiter von einer der Arbeitsgruppen einen statistisch unverhältnismäßigen Anteil an günstigen Zuweisungen empfangen. In diesem Beispiel stellt das Assoziationserkennungsprogramm 122 aufgrund dessen, dass das Verhältnis zwischen den günstigen Zuweisungen der Arbeitsgruppe 1 und den günstigen Zuweisungen der Arbeitsgruppe 2 weniger als 0,8 beträgt, fest, dass die Arbeitsgruppe 1 unterschiedlich betroffen ist. Folglich erstellt das Assoziationserkennungsprogramm 122 zwei Teilsätze des Arbeitszuweisungs-Datensatzes: (i) einen ersten Teilsatz, der ungünstige Arbeitszuweisungen an Mitarbeiter in der Arbeitsgruppe 1 enthält, und (ii) einen zweiten Teilsatz, der ungünstige Arbeitszuweisungen an Mitarbeiter der Arbeitsgruppe 2 enthält.
  • In der vorliegenden beispielhaften Ausführungsform führt das Assoziationserkennungsprogramm 122 das Assoziationsregel-Mining-Modell an dem ersten und dem zweiten Teilsatz aus. Das Assoziationsregel-Mining-Modell analysiert die Teilsätze und stellt mindestens ein zweites Attribut fest, das den Werten des ersten Attributs zugeordnet ist - ein Attribut „individuelles Wissen“. Das Assoziationserkennungsprogramm 122 identifiziert, dass verschiedene Werte des Attributs „individuelles Wissen“ den verschiedenen Werten des Attributs „Arbeitsgruppe“ zugeordnet sind. Im Einzelnen ist in diesem Beispiel der Wert „unerfahren“ des Attributs „individuelles Wissen“ dem Wert „Arbeitsgruppe 1“ des Attributs „Arbeitsgruppe“ zugeordnet, und der Wert „erfahren“ des Attributs „individuelles Wissen“ ist dem Wert „Arbeitsgruppe 2“ des Attributs „Arbeitsgruppe“ zugeordnet.
  • In dem vorliegenden Beispiel berechnet das Assoziationserkennungsprogramm 122 die Liftwerte für: (i) den Wert „unerfahren“ des Attributs „individuelles Wissen“ und den Wert „Arbeitsgruppe 1“ des Attributs „Arbeitsgruppe“ und (ii) den Wert „erfahren“ des Attributs „individuelles Wissen“ und den Wert „Arbeitsgruppe 2“ des Attributs „Arbeitsgruppe“. In diesem Beispiel berechnet das Assoziationserkennungsprogramm 122 den Liftwert unter Verwendung der vorstehend erläuterten Gleichung (1). In diesem Beispiel liegt der Liftwert für (i) den Wert „unerfahren“ des Attributs „individuelles Wissen“ und den Wert „Arbeitsgruppe 1“ des Attributs „Arbeitsgruppe“ über dem Liftwert-Schwellenwert, aber der Liftwert für (ii) den Wert „unerfahren“ des Attributs „individuelles Wissen“ und den Wert „Arbeitsgruppe 2“ des Attributs „Arbeitsgruppe“ liegt unter dem Liftwert-Schwellenwert. Daher wählt das Assoziationserkennungsprogramm 122 folglich den Wert „unerfahren“ des Attributs „individuelles Wissen“ und den Wert „Arbeitsgruppe 1“ des Attributs „Arbeitsgruppe“ für eine Voreingenommenheitsanalyse aus.
  • In der vorliegenden beispielhaften Ausführungsform führt das Assoziationserkennungsprogramm 122 eine Voreingenommenheitsanalyse für die Kombination aus dem Wert „unerfahren“ des Attributs „individuelles Wissen“ und dem Wert „Arbeitsgruppe 1“ des Attributs „Arbeitsgruppe“ durch, um festzustellen, ob die unerfahrenen Mitarbeiter der Arbeitsgruppe 1 einen statistisch unverhältnismäßigen Anteil an günstigen Zuweisungen empfangen. Das Assoziationserkennungsprogramm 122 verwendet die oben angewandte Disparate-Impact-Metrik, um festzustellen, dass das Verhältnis von günstigen Arbeitszuweisungen zwischen unerfahrenen Mitarbeitern der Arbeitsgruppe 1 und den anderen Mitarbeitern des Unternehmens weniger als 0,8 beträgt, was zu einer unterschiedlichen Auswirkung führt. Das Assoziationserkennungsprogramm 122 überträgt diese Daten an den Manager mit Anweisungen, die den Manager anweisen, die Daten weiter zu analysieren und eine informierte Entscheidung über verschiedene Parameter zu treffen, die sich positiv auf ein Erzielen von Fortschritten bei den Arbeitszuweisungs-Feststellungen auswirken könnten.
  • Es sei von vornherein klargestellt, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Stattdessen können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jeder beliebigen weiteren Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden.
  • Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerken, Netzwerkbandbreite, Servern, Verarbeitung, Hauptspeichern, Speichern, Anwendungen, virtuellen Maschinen und Services), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
  • Bei den Eigenschaften handelt es sich um die folgenden:
    • On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
  • Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
  • Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
  • Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
  • Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
  • Bei den Dienstmodellen handelt es sich um die folgenden:
    • Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
  • Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
  • Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
  • Bei den Einsatzmodellen handelt es sich um die folgenden:
    • Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
  • Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
  • Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
  • Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
  • Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten umfasst.
  • Unter Bezugnahme auf 3 ist eine veranschaulichende Cloud-Computing-Umgebung 50 dargestellt. Wie gezeigt ist, umfasst die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 10, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie beispielsweise ein elektronischer Assistent (PDA, personal digital assistant) oder ein Mobiltelefon 54A, ein Desktop-Computer 54B, ein Laptop-Computer 54C und/oder ein Automobil-Computer-System 54N Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, Benutzergemeinschafts-, öffentliche oder hybride Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten von in 4 gezeigten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
  • Unter Bezugnahme auf 4 ist ein Satz von funktionalen Abstraktionsschichten gezeigt, die durch die Cloud-Computing-Umgebung 50 (3) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 5 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie dargestellt ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
  • Eine Hardware- und Softwareschicht 60 umfasst Hardware- und Softwarekomponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 61; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 62; Server 63; Blade-Server 64; Speichereinheiten 65; und Netzwerke sowie Netzwerkkomponenten 66. In einigen Ausführungsformen umfassen Softwarekomponenten eine Netzwerk-Anwendungsserver-Software 67 und eine Datenbanksoftware 68.
  • Eine Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 71; virtueller Speicher 72; virtuelle Netzwerke 73, darunter virtuelle private Netzwerke; virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
  • In einem Beispiel kann eine Verwaltungsschicht 80 die nachstehend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 81 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 82 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungssoftwarelizenzen umfassen. Die Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 83 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 84 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 85 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einem SLA bereit.
  • Eine Arbeitslastschicht 90 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 93; Datenanalytikverarbeitung 94; Transaktionsverarbeitung 95; und Bereitstellen einer angenehmen Ausgabe 96.
  • 5 stellt ein Blockschaltbild 500 von Komponenten des Computersystems 120, der Client-Einheit 130, des SAN 140 gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung dar. Es ist darauf hinzuweisen, dass 5 lediglich eine einzelne Ausführung veranschaulicht und keine Einschränkungen in Bezug auf die Umgebungen bedeutet, in denen verschiedene Ausführungsformen ausgeführt werden können. An der dargestellten Umgebung können viele Änderungen vorgenommen werden.
  • Das Computersystem 120 enthält eine Übertragungsstruktur 502, die Übertragungen zwischen (einem) Computerprozessor(en) 504, einem Hauptspeicher 506, einem persistenten Speicher 508, einer Übertragungseinheit 510 und (einer) Ein-/Ausgabe-(E/A-)Schnittstell(en) 512 bereitstellt. Die Übertragungsstruktur 502 kann mit einer beliebigen Architektur ausgeführt sein, die dafür ausgelegt ist, Daten und/oder Steuerinformationen zwischen Prozessoren (wie beispielsweise Mikroprozessoren, Übertragungs- und Netzwerkprozessoren usw.), einem Systemspeicher, peripheren Einheiten und beliebigen anderen Hardware-Komponenten innerhalb eines Systems zu übergeben. Zum Beispiel kann die Übertragungsstruktur 502 mit einem oder mehreren Bussen ausgeführt sein.
  • Bei dem Hauptspeicher 506 und dem persistenten Speicher 508 handelt es sich um durch einen Computer lesbare Speichermedien. In dieser Ausführungsform enthält der Hauptspeicher 506 einen Direktzugriffsspeicher (RAM) 514 und einen Cache 516. Im Allgemeinen kann der Hauptspeicher 506 beliebige geeignete flüchtige oder nicht flüchtige, durch einen Computer lesbare Speichermedien umfassen.
  • Das Assoziationserkennungsprogramm 122, die Computerschnittstelle 124, die Client-Anwendung 132, die Client-Schnittstelle 134, die Server-Anwendung 142 und die Datenbank 144 sind im persistenten Speicher 508 zur Ausführung und/oder für den Zugriff durch einen oder mehrere der jeweiligen Computerprozessoren 504 über einen oder mehrere Hauptspeicher des Hauptspeichers 506 gespeichert. In dieser Ausführungsform enthält der persistente Speicher 508 ein Magnetfestplattenlaufwerk. Alternativ oder zusätzlich zu einem Magnetfestplattenlaufwerk kann der persistente Speicher 508 ein Solid-State-Festplattenlaufwerk, eine Halbleiterspeichereinheit, einen Nur-Lese-Speicher (ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM), einen Flashspeicher oder ein beliebiges anderes durch einen Computer lesbares Speichermedium umfassen, das Programmanweisungen oder digitale Informationen speichern kann.
  • Die durch den persistenten Speicher 508 verwendeten Datenträger können auch austauschbar sein. Zum Beispiel kann ein austauschbares Festplattenlaufwerk für den persistenten Speicher 508 verwendet werden. Zu weiteren Beispielen gehören optische und magnetische Platten, Thumb-Drives und Smartcards, die in ein Laufwerk zur Übertragung auf ein weiteres durch einen Computer lesbares Speichermedium, das ebenfalls Teil des persistenten Speichers 508 ist, eingelegt werden.
  • Die Übertragungseinheit 510 in diesen Beispielen sieht Übertragungen mit anderen Datenverarbeitungssystemen oder-einheiten, darunter Ressourcen des Netzwerks 110, vor. In diesen Beispielen umfasst die Übertragungseinheit 510 eine oder mehrere Netzschnittstellenkarten. Die Übertragungseinheit 510 kann durch die Verwendung von physischen oder drahtlosen oder aber von sowohl physischen als auch drahtlosen Datenübertragungsverbindungen Übertragungen bereitstellen. Das Assoziationsfeststellungsprogramm 122, die Computerschnittstelle 124, die Client-Anwendung 132, die Client-Schnittstelle 134, die Server-Anwendung 142 und die Datenbank 144 können durch die Übertragungseinheit 510 in den persistenten Speicher 508 heruntergeladen werden.
  • Die E/A-Schnittstelle(n) 512 ermöglicht/ermöglichen eine Ein- und Ausgabe von Daten mit anderen Einheiten, die mit dem Computersystem 120, der Client-Einheit 130 und dem SAN 140 verbunden sein können. Zum Beispiel kann/können die E/A-Schnittstelle(n) 512 eine Verbindung zu externen Einheiten 518 wie beispielsweise einer Tastatur, einem Tastenblock, einem berührungsempfindlichen Bildschirm und/oder einer anderen geeigneten Eingabeeinheit bereitstellen. Zu den externen Einheiten 518 können auch auswechselbare, durch einen Computer lesbare Speichermedien wie zum Beispiel Thumb-Drives, auswechselbare optische oder Magnetplatten und Speicherkarten gehören. Software und Daten, die verwendet werden, um Ausführungsformen der vorliegenden Erfindung in die Praxis umzusetzen, z.B. das Assoziationserkennungsprogramm 122, die Computerschnittstelle 124, die Client-Anwendung 132, die Client-Schnittstelle 134, die Server-Anwendung 142 und die Datenbank 144, können auf solchen auswechselbaren, durch einen Computer lesbaren Speichermedien gespeichert sein und über die E/A-Schnittstelle(n) 512 in den persistenten Speicher geladen werden. Die E/A-Schnittstelle(n) 512 ist/sind auch mit einem Bildschirm 520 verbunden.
  • Der Bildschirm 520 stellt einen Mechanismus bereit, um einem Benutzer Daten anzuzeigen, und kann zum Beispiel ein Computer-Monitor oder ein Fernsehbildschirm sein.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übermittelte elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field-programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in dem Ablaufplan oder in den Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, das bzw. der eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweist. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit weitgehend gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Die hierin beschriebenen Programme werden auf der Grundlage der Anwendung angegeben, für die sie in einer bestimmten Ausführungsform der Erfindung ausgeführt werden. Es ist jedoch darauf hinzuweisen, dass jedwede bestimmte Programm-Nomenklatur hierin lediglich aus Gründen der Zweckmäßigkeit verwendet wird, und somit sollte die Erfindung nicht auf eine ausschließliche Verwendung in einer bestimmten Anwendung, die von dieser Nomenklatur angegeben und/oder durch diese Nomenklatur stillschweigend vorausgesetzt wird, beschränkt sein.
  • Es sei angemerkt, dass der/die Begriff(e) wie zum Beispiel „Smalltalk“ und dergleichen in verschiedenen Jurisdiktionen weltweit Markenrechten unterliegen können und hier lediglich unter Bezugnahme auf die durch die Marken ordnungsgemäß bezeichneten Produkte oder Services verwendet werden, insoweit als solche Markenrechte gegebenenfalls vorhanden sind.

Claims (9)

  1. Durch einen Computer ausgeführtes Verfahren, das umfasst: Identifizieren, durch einen oder mehrere Prozessoren, (i) eines Datensatzes, (ii) eines Satzes von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) einer unerwünschten Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben; Feststellen, durch einen oder mehrere Prozessoren, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell: (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributen und Werten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.
  2. Durch einen Computer ausgeführtes Verfahren nach Anspruch 1, wobei das Verfahren des Weiteren umfasst: Empfangen, durch einen oder mehrere Prozessoren, einer Anforderung von einem Benutzer, Werte von einem oder mehreren anderen Attributen als dem ersten Attribut zu identifizieren, die zu der unerwünschten Unterschiedlichkeit beitragen; und Reagieren, durch einen oder mehrere Prozessoren, auf die Anforderung, indem der Benutzer über die Feststellung informiert wird, dass der Wert des zweiten Attributs zu der unerwünschten Unterschiedlichkeit beiträgt.
  3. Durch einen Computer ausgeführtes Verfahren nach Anspruch 1, wobei das Feststellen, dass der Wert des zweiten Attributs zu der unerwünschten Unterschiedlichkeit beiträgt, ein Feststellen, durch einen oder mehrere Prozessoren, umfasst, dass der Wert des zweiten Attributs dem ersten Wert des ersten Attributs zugeordnet ist.
  4. Durch einen Computer ausgeführtes Verfahren nach Anspruch 3, das des Weiteren ein Feststellen, durch einen oder mehrere Prozessoren, umfasst, dass ein zweiter Wert des zweiten Attributs ebenfalls zu der unerwünschten Unterschiedlichkeit beiträgt, wobei der zweite Wert des zweiten Attributs als dem zweiten Wert des ersten Attributs zugeordnet festgestellt wird.
  5. Durch einen Computer ausgeführtes Verfahren nach Anspruch 3, das des Weiteren ein Feststellen, durch einen oder mehrere Prozessoren, umfasst, dass ein Wert eines dritten Attributs ebenfalls zu der unerwünschten Unterschiedlichkeit beiträgt, wobei der Wert des dritten Attributs als dem zweiten Wert des ersten Attributs zugeordnet festgestellt wird.
  6. Durch einen Computer ausgeführtes Verfahren nach Anspruch 1, wobei das Verfahren des Weiteren umfasst: Trainieren, durch einen oder mehrere Prozessoren, des Assoziationsregel-Mining-Modells unter Verwendung von Trainingsdaten, die umfassen: (i) ein Schema, das Spalten eines Trainingsdatensatzes und jeweilige Constraints für jede der Spalten identifiziert, und (ii) eine Liste von bekannten Assoziationen zwischen den Spalten.
  7. Durch einen Computer ausgeführtes Verfahren nach Anspruch 1, wobei die Lift-Berechnung ein Teilen der Anzahl von Dateneinträgen, bei denen der erste Wert des ersten Attributs und der Wert des zweiten Attributs gleichzeitig auftraten, durch das Produkt aus der Anzahl von Dateneinträgen, bei denen der erste Wert des ersten Attributs auftrat, und der Anzahl von Dateneinträgen, bei denen der Wert des zweiten Attributs auftrat, umfasst.
  8. Computerprogrammprodukt, wobei das Computerprogrammprodukt aufweist: ein oder mehrere durch einen Computer lesbare Datenträger und Programmanweisungen, die auf dem einen oder den mehreren durch einen Computer lesbaren Speichermedien gespeichert sind, wobei die gespeicherten Programmanweisungen aufweisen: Programmanweisungen, um (i) einen Datensatz, (ii) einen Satz von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) eine unerwünschte Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben, zu identifizieren; Programmanweisungen, um festzustellen, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell: (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributen und Werten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.
  9. Computersystem, wobei das Computersystem aufweist: einen oder mehrere Prozessoren; ein oder mehrere durch einen Computer lesbare Speichermedien; und Programmanweisungen, die auf den durch einen Computer lesbaren Speichermedien zur Ausführung durch mindestens einen des einen oder der mehreren Prozessoren gespeichert sind, wobei die gespeicherten Programmanweisungen aufweisen: Programmanweisungen, um (i) einen Datensatz, (ii) einen Satz von Ausgabeklasse-Feststellungen, die für Dateneinträge des Datensatzes durch einen Computerentscheidungsalgorithmus getroffen werden, und (iii) eine unerwünschte Unterschiedlichkeit zwischen Ausgabeklasse-Feststellungen, die sich aus einem ersten Wert eines ersten Attributs des Datensatzes ergeben, und Ausgabeklasse-Feststellungen, die sich aus einem zweiten Wert des ersten Attributs ergeben, zu identifizieren; Programmanweisungen, um festzustellen, dass ein Wert eines zweiten Attributs des Datensatzes zu der unerwünschten Unterschiedlichkeit beiträgt, indem: einem Assoziationsregel-Mining-Modell: (i) eine erste Gruppe der Dateneinträge, die den ersten Wert des ersten Attributs hat, und (ii) eine zweite Gruppe der Dateneinträge, die den zweiten Wert des ersten Attributs hat, bereitgestellt wird und der Wert des zweiten Attributs aus einem Satz von möglichen Attributen und Werten ausgewählt wird, die von dem Assoziationsregel-Mining-Modell auf der Grundlage, zumindest zum Teil, einer Lift-Berechnung erzeugt werden.
DE102021123132.9A 2020-10-13 2021-09-07 Erkennen von assoziationen zwischen datensätzen Pending DE102021123132A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/068,856 US20220114459A1 (en) 2020-10-13 2020-10-13 Detection of associations between datasets
US17/068,856 2020-10-13

Publications (1)

Publication Number Publication Date
DE102021123132A1 true DE102021123132A1 (de) 2022-04-14

Family

ID=78399541

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021123132.9A Pending DE102021123132A1 (de) 2020-10-13 2021-09-07 Erkennen von assoziationen zwischen datensätzen

Country Status (5)

Country Link
US (1) US20220114459A1 (de)
JP (1) JP2022064315A (de)
CN (1) CN114357056A (de)
DE (1) DE102021123132A1 (de)
GB (1) GB2600551A (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7410209B2 (ja) * 2022-04-20 2024-01-09 Lineヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7433879B1 (en) * 2004-06-17 2008-10-07 Versata Development Group, Inc. Attribute based association rule mining
US11556838B2 (en) * 2019-01-09 2023-01-17 Sap Se Efficient data relationship mining using machine learning
US11526701B2 (en) * 2019-05-28 2022-12-13 Microsoft Technology Licensing, Llc Method and system of performing data imbalance detection and correction in training a machine-learning model
US20220044133A1 (en) * 2020-08-07 2022-02-10 Sap Se Detection of anomalous data using machine learning

Also Published As

Publication number Publication date
CN114357056A (zh) 2022-04-15
US20220114459A1 (en) 2022-04-14
GB202113647D0 (en) 2021-11-10
GB2600551A (en) 2022-05-04
JP2022064315A (ja) 2022-04-25

Similar Documents

Publication Publication Date Title
DE112020000526T5 (de) System und verfahren zum inkrementellen lernen für eine objekterkennung
DE112019003042B4 (de) Erkennung von verdächtigen aktivitäten in computernetzwerken
DE112016001902T5 (de) Schätzen von Rechenressourcen für die Ausführung von Data-Mining-Diensten
DE112016003355T5 (de) Sicherer Einsatz einer Anwendung über Einsatzorte hinweg
DE112020001688B4 (de) Richtlinienbasiertes auslösen einer überarbeitung von zugriffssteuerungsinformationen
DE112019001433T5 (de) Datenanonymisierung
DE112020005323T5 (de) Elastische ausführung von machine-learning-arbeitslasten unter verwendung einer anwendungsbasierten profilierung
DE112021003262T5 (de) Erkennen von quelldatensätzen, die zu einem transferlernverfahren für eine zieldomäne passen
DE112020005306T5 (de) Implementierung von arbeitslasten in einer multi-cloud-umgebung
DE102016105062A1 (de) Nähengestützte Berechtigungsprüfung für einheitenübergreifend verteilte Daten
DE112020000545T5 (de) Deep-forest-modell-entwicklung und -training
DE102021130396A1 (de) Datenzugriffsüberwachung und -steuerung
DE112021001163T5 (de) Dynamisches erstellen von facetten unter verwendung von graphpartitionierung
DE112021000810T5 (de) Optisches erkennen von zellenstrukturen unter verwendung hierarchischer neuronaler netzwerke und zellengrenzen zum strukturieren von clustern
DE112021004380T5 (de) Maschinelles merkmalslernen zur produktformulierung
DE102021123058A1 (de) Maskieren von sensiblen informationen in einem dokument
DE112020003825T5 (de) Entsprechung zwischen externen Operationen und Containern sowie Mutationsereignissen
DE102014116744A1 (de) Management von Informationstechnologieressourcen
DE112019002052T5 (de) Datenschutzsensibilisierung bei der bereitstellung von arbeitslasten
DE102021122508A1 (de) Ausgleichen von grossrechner- und verteilten arbeitslasten auf der grundlage von leistung und kosten
DE112021003680T5 (de) Deterministisch lernende videoszenenerkennung
DE112018005891T5 (de) Bibliotheks-Screening auf Krebswahrscheinlichkeit
DE102021123132A1 (de) Erkennen von assoziationen zwischen datensätzen
DE112019001493T5 (de) Ermitteln der abfrageerkennungsresilienz in virtuellen agentensystemen
DE102021127398A1 (de) Beziehungserkennung und -quantifizierung

Legal Events

Date Code Title Description
R012 Request for examination validly filed