DE112021003058T5 - Verbessertes auflösen von entitäten in stammdaten unter verwendung einer qualifizierten beziehungsbewertung - Google Patents

Verbessertes auflösen von entitäten in stammdaten unter verwendung einer qualifizierten beziehungsbewertung Download PDF

Info

Publication number
DE112021003058T5
DE112021003058T5 DE112021003058.2T DE112021003058T DE112021003058T5 DE 112021003058 T5 DE112021003058 T5 DE 112021003058T5 DE 112021003058 T DE112021003058 T DE 112021003058T DE 112021003058 T5 DE112021003058 T5 DE 112021003058T5
Authority
DE
Germany
Prior art keywords
entity
entity records
records
unresolved
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021003058.2T
Other languages
English (en)
Inventor
Geetha Sravanthi Pulipaty
Chitra A. Iyer
Prabhakaran Ramalingam
Shettigar Parkala Srinivas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112021003058T5 publication Critical patent/DE112021003058T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

Es wird eine erste Bewertung empfangen, die einer Übereinstimmung zwischen Entitätsdatensätzen einer Mehrzahl von Entitäten von Stammdaten eines MDM-Systems zugehörig ist. Ein Satz von Entitätsdatensätzen mit einer ersten Bewertung oberhalb eines unteren Bewertungsschwellenwerts und unterhalb eines oberen Bewertungsschwellenwerts wird als nicht aufgelöst identifiziert; weder als übereinstimmend noch als nicht übereinstimmend bestätigt. Es wird eine zweite Bewertung erzeugt, die den Beziehungen zwischen den Entitätsdatensätzen zugehörig ist. Gesamtbewertungen für Paare des Satzes von Entitätsdatensätzen werden ermittelt, indem die erste Übereinstimmungsbewertung mit der zweiten Beziehungsbewertung verknüpft wird. Die Gesamtbewertung der jeweiligen Paare des Satzes von Entitäten wird mit dem oberen Schwellenwert verglichen, und wenn der obere Schwellenwert überschritten wird, werden die Informationen des Paares von Entitätsdatensätzen des Satzes von Entitätsdatensätzen zu einem einzigen Datensatz verknüpft und redundante Entitätsdatensätze aus dem MDM-System entfernt.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf das Gebiet der Stammdatenverwaltung und insbesondere auf ein Verbessern der Auflösung von Entitätendaten in Stammdaten-Verwaltungssystemen unter Verwendung einer qualifizierten Beziehungsbewertung (relationship score).
  • HINTERGRUND DER ERFINDUNG
  • Die Stammdatenverwaltung (master data management, MDM) ist der Kernprozess für das Verwalten, Zentralisieren, Organisieren, Kategorisieren, Lokalisieren, Synchronisieren und Aufbereiten von Stammdaten gemäß den Geschäftsregeln der Vertriebs-, Marketing- und Betriebsstrategien eines Unternehmens. MDM setzt umfassende Verfahren ein, um die kritischen Daten einer Organisation zu definieren und zu verwalten. Sie stellt eine einzige, vertrauenswürdige Ansicht von Daten für alle Komponenten, Interaktionen und Interessen des Unternehmens bereit.
  • Zu den Stammdaten gehören Daten und Informationen, die Entitäten zugehörig sind, mit denen die Organisation arbeitet, die es unterstützt oder mit denen es interagiert, zum Beispiel Kunden, Klienten, Mitarbeiter, Auftragnehmer, Patienten, Gesundheitsdienstanbieter, Dienstanbieter (Personen), andere Organisationen, Standorte, Produkte oder Objekte mit eindeutigen Identifikationsmerkmalen.
  • Datenqualität und -genauigkeit sind wichtige Attribute von Stammdatensätzen, und MDM-Systeme umfassen Techniken, um falsch-positive und falsch-negative Ergebnisse beim Auflösen von zwei Entitätsdatensätzen als dieselbe Entität zu vermeiden.
  • KURZDARSTELLUNG
  • Ausführungsformen der vorliegenden Erfindung offenbaren ein Verfahren, Computerprogrammprodukt und System. Die Ausführungsformen umfassen ein Verfahren zum Auflösen von Entitätsdatensätzen eines Systems zur Stammdatenverwaltung (MDM). Das Verfahren sorgt dafür, dass ein oder mehrere Prozessoren eine erste Bewertung (score) empfangen, die einer Übereinstimmung zwischen Entitätsdatensätzen einer Mehrzahl von Entitäten von Stammdaten eines MDM-Systems zugehörig ist. Der eine oder die mehreren Prozessoren identifizieren die erste Bewertung eines Satzes von jeweiligen Entitätsdatensätzen, die über einem unteren Übereinstimmungsbewertungs-Schwellenwert (threshold matching score) und unter einem oberen Übereinstimmungsbewertungs-Schwellenwert liegt, wodurch ein nicht aufgelöstes Übereinstimmen des Satzes von Entitätsdatensätzen angezeigt wird. Der eine oder die mehreren Prozessoren erzeugen eine zweite Bewertung, die einer Beziehung zwischen Entitätsdatensätzen zugehörig ist, auf der Grundlage einer Analyse von Beziehungsdaten, die dem Satz von Entitätsdatensätzen zugehörig sind. Der eine oder die mehreren Prozessoren erzeugen eine Gesamtbewertung (overall score) für den Satz von Entitätsdatensätzen, indem sie die erste Bewertung, die der Übereinstimmung zugehörig ist, und die zweite Bewertung, die der Beziehung zugehörig ist, verknüpfen. Der eine oder die mehreren Prozessoren ermitteln, ob die Gesamtbewertung des Satzes von Entitäten den oberen Schwellenwert überschreitet, und als Reaktion darauf, dass die Gesamtbewertung eines Paars von Entitätsdatensätzen des Satzes von Entitätsdatensätzen den oberen Schwellenwert überschreitet, verknüpfen der eine oder die mehreren Prozessoren Informationen des Paars von Entitätsdatensätzen des Satzes von Entitätsdatensätzen zu einem einzigen Datensatz und entfernen redundante Entitätsdatensätze aus dem MDM-System.
  • Figurenliste
    • 1 zeigt ein funktionelles Blockschaubild, das eine verteilte Datenverarbeitungsumgebung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
    • 2A zeigt eine Kategorisierung einer probabilistischen Übereinstimmung von Entitätsdatensätzen gemäß Ausführungsformen der vorliegenden Erfindung.
    • 2B zeigt ein Beispiel für eine gewichtete Bewertung von Entitäts-Beziehungstypen gemäß Ausführungsformen der vorliegenden Erfindung.
    • 3 zeigt einen Ablaufplan, der funktionsmäßige Schritte eines Datensatz-Verknüpfungsprogramms darstellt, das in der verteilten Datenverarbeitungsumgebung von 1 gemäß Ausführungsformen der vorliegenden Erfindung betrieben wird.
    • 4 zeigt ein Blockschaltbild von Komponenten eines Datenverarbeitungssystems, zum Beispiel eine Datenverarbeitungseinheit, die so konfiguriert ist, dass sie das Datensatz-Verknüpfungsprogramm von 3 gemäß einer Ausführungsform der vorliegenden Erfindung funktionsmäßig ausführt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In Ausführungsformen der vorliegenden Erfindung wird verdeutlicht, dass Systeme zur Stammdatenverwaltung (MDM) häufig eine probabilistische Übereinstimmungs-Steuerroutine (probabilistic matching engine, PME) verwenden, um Datensätze von Entitäten zu bewerten und zu ermitteln, ob es sich bei Datensätzen um Duplikate einer Entität oder um Datensätze von unterschiedlichen Entitäten handelt. In Ausführungsformen wird auch verdeutlicht, dass PME-Lösungen beim Paaren jedes Stammdatensatzes mit den anderen Stammdatensätzen Übereinstimmungsbewertungen erstellen, um eine Übereinstimmungsbewertung auf der Grundlage von Attributen der jeweiligen Entitätsdatensätze zu ermitteln. In Ausführungsformen wird verdeutlicht, dass die Übereinstimmungsalgorithmen einer PME sorgfältig kalibriert werden, um falsch-positive und falsch-negative Übereinstimmungen von Entitätsdatensätzen weitgehend zu vermeiden, da falsche Übereinstimmungen zu höchst problematischen Aktionen und Entscheidungen führen können.
  • In Ausführungsformen der vorliegenden Erfindung wird der Begriff „Entität“ mit Bezug auf ein Objekt verwendet, und ein „Entitätsdatensatz“ bezieht sich auf eine Sammlung von Daten und Informationen, die dem Objekt zugehörig sind. Bei einer Entität kann es sich zum Beispiel um eine Person, eine Familie, eine Gruppe von Personen, ein Unternehmen, eine Organisation, einen Standort, ein Produkt, eine Dienstleistung oder ein beliebiges Objekt mit Attributen oder Eigenschaften handeln, die eine Identifizierung oder Beschreibung durch eine Sammlung von Daten und Informationen über das Objekt bereitstellen. Bei aus einzelnen Personen bestehenden Entitäten kann es sich zum Beispiel um Kunden, Patienten, Kontakte, Mitarbeiter, Mitglieder und Anbieter handeln. In Ausführungsformen wird auch verdeutlicht dass Entitätsdatensätze begrenzte, geänderte oder fehlerhafte Daten und Informationen über Attribute der Entität umfassen können, wodurch Bedingungen geschaffen werden, unter denen doppelte oder redundante Entitätsdatensätze in den Stammdaten vorhanden sein können.
  • In Ausführungsformen der vorliegenden Erfindung wird verdeutlicht, dass PME-Lösungen, die auf Entitätsdatensätze von MDM-Systemen angewandt werden, zu Bewertungen von Entitätsdatensätzen führen. Ein Entitätsdatensatz umfasst die Daten und Informationen, die Attributen der Entität zugehörig sind, zu denen zum Beispiel Name oder Bezeichnung, Adresse, Telefonnummer, Geschlecht und andere Attribute und Eigenschaften gehören können. Ein Übereinstimmen von Entitätsdatensätzen durch eine PME erzeugt eine Wahrscheinlichkeitsbewertung (probability score), indem verfügbare Entitätsattribute zwischen Paaren von Entitätsdatensätzen verglichen werden und höhere Werte für übereinstimmende Attribute und niedrigere oder negative Werte für nicht übereinstimmende Attribute vergeben werden. Die Gesamtbewertung wird auf ein Paar von Sortierungs-Schwellenwerten durchgeführt. Die beiden Schwellenwerte markieren die Grenzwerte für ein automatisches Ermitteln, ob die beiden Datensätze eines Paares zur gleichen Entität gehören (oberhalb des oberen Bewertungsschwellenwerts) oder von unterschiedlichen Entitäten stammen (unterhalb des unteren Bewertungsschwellenwerts). Der Vergleich von Datensätzen, bei dem die PME-Lösung eine Übereinstimmungsbewertung am oder über dem unteren Schwellenwert oder am oder unter dem oberen Schwellenwert erzeugt, erfordert ein zusätzliches Auflösen, um zu ermitteln, ob die Datensätze zu derselben Entität gehören.
  • Für Benutzer von Stammdaten-Datenablagen ist eine hohe Qualität und Genauigkeit der Daten sehr wichtig, und sie verwenden häufig manuelle Überprüfungsverfahren, die von Datenverwaltern durchgeführt werden, um Unterschiede bei Entitätsdatensätzen aufzulösen. In Ausführungsformen wird verdeutlicht, dass ein Durchführen von konservativen PME-Lösungsalgorithmen für Entitätsdatensätze zu einem Satz von nicht aufgelösten Entitätsdatensätzen führt, die zur Auflösung häufig eine manuelle Überprüfung erfordern. In einigen Fällen werden die nicht aufgelösten Datensätze übergangen, und die ungenauen Daten werden akzeptiert, um den Kostenaufwand zu vermeiden, der mit der manuellen Auflösung durch eine Überprüfung durch einen Sachbearbeiter verbunden ist.
  • Ausführungsformen der vorliegenden Erfindung stellen ein Verfahren, ein Computerprogrammprodukt und ein Computersystem bereit, um potenzielle doppelte oder redundante Entitätsdatensätze von Stammdaten aufzulösen. In Ausführungsformen der vorliegenden Erfindung wird eine Prüfung von Beziehungs-, Gruppierungs- und Hierarchiedaten zwischen Paaren von Entitätsdatensätzen von Stammdaten durchgeführt. Die Prüfung erzeugt eine Beziehungsbewertung, die zu der Übereinstimmungsbewertung der PME-Algorithmen hinzugefügt wird, wodurch sich eine Gesamtbewertung ergibt, mit der genauer ermittelt werden kann, ob Datensatzpaare zu derselben Entität gehören oder es sich um unterschiedliche Entitäten handelt. In einigen Ausführungsformen umfassen die Beziehungsattribute, die zwischen Entitäten verglichen werden, gemeinsame Gruppierungen und hierarchische Beziehungen, zum Beispiel eine Berichtsstruktur oder funktionale Interaktion innerhalb eines Unternehmens oder einer Organisation. Ausführungsformen der vorliegenden Erfindung beziehen sich hier auf Beziehungsattribute von Entitätsdatensätzen, die auch Attribute der Gruppierung und Hierarchie zwischen Entitäten umfassen.
  • In Ausführungsformen der vorliegenden Erfindung wird verdeutlicht, dass MDM-Systeme, in denen PME-Algorithmen zum Einsatz kommen, nur kategoriale und demografische Daten für ein Übereinstimmen und Auflösen von Entitäten umfassen. Ausführungsformen der vorliegenden Erfindung umfassen das Hinzufügen von Beziehungsdaten zu den bestehenden kategorialen und demografischen Übereinstimmungsdaten des MDM-Systems. In einigen Ausführungsformen wird eine zweite Bewertung erzeugt, die Beziehungs-, Gruppierungs- und Hierarchieinformationen widerspiegelt, die Entitäten der Stammdaten zugehörig sind, und diese zweite „Beziehungs“-Bewertung wird mit der ursprünglichen „Übereinstimmungsbewertung“ verknüpft, um eine Gesamtbewertung für die Paarung von Entitäten zu erhalten. Die Gesamtbewertung wird dann mit dem oberen und dem unteren Schwellenwert verglichen, um zu ermitteln, ob das Entitätenpaar übereinstimmt, nicht übereinstimmt oder zu einer deutlich reduzierten nicht aufgelösten Kategorie gehört.
  • Die vorliegende Erfindung wird nun unter Bezugnahme auf die Figuren im Einzelnen beschrieben. 1 zeigt ein funktionelles Blockschaubild, im Allgemeinen mit 100 gekennzeichnet, das eine verteilte Datenverarbeitungsumgebung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht. 1 stellt nur eine beispielhafte Darstellung einer Ausführungsform bereit und impliziert keine Einschränkungen in Bezug auf die Umgebungen, in denen verschiedene Ausführungsformen implementiert werden können. Der Fachmann kann viele Änderungen an der dargestellten Umgebung vornehmen, ohne vom Umfang der Erfindung abzuweichen, wie er in den Ansprüchen angegeben ist.
  • Die verteilte Datenverarbeitungsumgebung 100 umfasst ein System zur Stammdatenverwaltung (MDM) 110, einen Server 120, kategoriale und demografische (categorical and demographic, C&D) Informationen 130, Beziehungsinformationen 140, verknüpfte Entitätsdatensätze 160 und nicht aufgelöste Entitätsdatensätze 170, die alle über ein Netzwerk 150 miteinander verbunden sind. Bei dem Netzwerk 150 kann es sich zum Beispiel um ein lokales Netzwerk (LAN), ein Weitverkehrsnetz (WAN) wie das Internet, ein virtuelles lokales Netzwerk (VLAN) oder eine Kombination aus diesen handeln, die drahtgebundene, drahtlose oder optische Verbindungen umfassen können. Im Allgemeinen kann es sich bei dem Netzwerk 150 um jede Kombination von Verbindungen und Protokollen handeln, die unterstützt wird.
  • Das MDM-System 110 umfasst die Stammdaten 115 und die probabilistische Übereinstimmungs-Steuerroutine (probabilistic matching engine, PME) 117. Das MDM-System 110 empfängt, speichert, verarbeitet und aktualisiert die Stammdaten 115. Das MDM-System 110 kann Kombinationen von Datenverarbeitungs-, Verarbeitungs-, Speicher- und Bearbeitungseinheiten sowie eine Anwendung zur Pflege der Stammdaten 115 umfassen. Das MDM-System 110 führt mittels der PME 117 eine Übereinstimmungsoperation durch, bei der jeder Entitätsdatensatz mit allen anderen Entitätsdatensätzen der Stammdaten 115 verglichen wird, um zu ermitteln, ob die Datensätze zu derselben Entität oder zu unterschiedlichen Entitäten gehören. Die von dem MDM-System 110 durchgeführte Übereinstimmungsoperation umfasst ein Erzeugen einer ersten Bewertung, die hier als Übereinstimmungsbewertung bezeichnet wird, auf der Grundlage einer Wahrscheinlichkeit, dass Attribute zweier Entitätsdatensätze derselben Entität angehören.
  • Die Stammdaten 115 werden als Komponente des MDM-Systems 110 dargestellt. In einigen Ausführungsformen können die Stammdaten 115 in einer durchsuchbaren Datenbank oder Datenablage enthalten sein und einen festen Bestandteil des MDM-Systems 110 bilden. In anderen Ausführungsformen handelt es sich bei den Stammdaten 115 um eine separate Datenablage, auf die das MDM-System 110 zugreifen kann (nicht dargestellt). Die Stammdaten 115 umfassen Informationen über Attribute von Entitäten der Stammdaten 115. In einigen Ausführungsformen umfassen die Stammdaten 115 Attribute, die den jeweiligen Entitäten der Stammdaten 115 zugehörig sind, zum Beispiel einen Namen oder eine Bezeichnung, einen Standort, einen der Entität zugehörigen Gegenstand (z.B. Kunde, Organisation usw.) sowie andere kategoriale und/oder demografische Daten. Die PME 117 kann die Stammdaten 115 verwenden, um eine erste Bewertung (Übereinstimmungsbewertung) zwischen Paaren von Entitätsdatensätzen zu erzeugen. In Ausführungsformen der vorliegenden Erfindung umfassen die Stammdaten 115 einen zusätzlichen Satz von Beziehungsdaten, zum Beispiel die in den Beziehungsinformationen 140 enthaltenen Informationen, zusätzlich zu Informationen und Daten aus kategorialen und demografischen Quellen, zum Beispiel den C&D-Informationen 130.
  • Die C&D-Informationen 130 umfassen eine oder mehrere Quellen für kategoriale und demografische Entitätsdaten und -informationen. In einigen Ausführungsformen umfassen die C&D-Informationen 130 Daten und Informationen, die von der Entität oder dem Unterstützungsservice der Entität bereitgestellt werden. In anderen Ausführungsformen ergeben sich die C&D-Informationen 130 aus einer Aktion oder Transaktion der Entität. In Ausführungsformen der vorliegenden Erfindung werden Daten, die durch eine Kategoriebeschreibung (Altersgruppe, Größe, Standort und beschreibende Informationen) beschrieben werden können, als kategoriale Informationen betrachtet. In Ausführungsformen gehören zu den demografischen Daten Name oder Bezeichnung, Standort, (für Personen oder Organisationen Telefonnummer), Identifikationsnummern usw. Die C&D-Informationen 130 werden von der PME 117 des MDM-Systems 110 verwendet, um eine erste Bewertung der Übereinstimmung zwischen Entitäten der Stammdaten 115 zu erzeugen.
  • Die Beziehungsinformationen 140 umfassen eine oder mehrere Informationsquellen über die Beziehungen einer Entität der Stammdaten 115 zu anderen Entitäten, Gruppierungen von Entitäten und hierarchische Beziehungen zu anderen Entitäten. Zum Beispiel können die Beziehungsinformationen 140 Informationen darüber umfassen, dass eine erste Entität (Person) zwei Geschwister hat, einen älteren Bruder und eine jüngere Schwester, sowie einen Elternteil mit demselben Vornamen. In einem anderen Beispiel umfassen die Beziehungsinformationen 140 Informationen über eine Freizeitorganisation, in der ein erster Benutzer Mitglied ist, und ein Unternehmen, in dem der erste Benutzer arbeitet, sowie die hierarchische Position des ersten Benutzers innerhalb des Unternehmens. Ausführungsformen der vorliegenden Erfindung erzeugen eine zweite Bewertung unter Verwendung von Beziehungsinformationen 140 für jede Paarung von Entitäten der Stammdaten 115, die mit der ersten Bewertung, also die von der PME 117 durchgeführten Übereinstimmungsbewertung, verknüpft wird, um eine Gesamtbewertung zu erzeugen, mit der ermittelt wird, ob eine Paarung von Entitätsdatensätzen der Stammdaten 115 übereinstimmt oder unterschiedlich ist.
  • In verschiedenen Ausführungsformen der vorliegenden Erfindung werden die kategorialen und demografischen Entitätsdaten und -informationen, die in den C&D-Informationen 130 enthalten sind, und die Beziehungsdaten und -informationen, die in den Beziehungsinformationen 140 enthalten sind, von der Entität gesammelt oder bereitgestellt, wobei die Entität die Möglichkeit hat, eine ausdrückliche Zustimmung zu erteilen (opt-in) oder die Zustimmung zu verweigern (opt-out). Ausführungsformen der vorliegenden Erfindung stellen der Entität eine Beschreibung bereit, wie die gesammelten oder bereitgestellten Informationen verwendet werden, und ermöglichen es der Entität, dem Verwenden der gesammelten oder bereitgestellten Informationen für die angegebenen Zwecke eine Berechtigung erteilen oder dieses abzulehnen.
  • Die übereinstimmenden Entitätsdatensätze 160 umfassen alle Datensätze, die ursprünglich nach der ersten Übereinstimmungsbewertung durch die PME 117 als nicht aufgelöste Entitätsdatensätze kategorisiert wurden und die nach dem Erhalt einer Gesamtbewertung durch Verknüpfen der Beziehungsbewertung mit der Übereinstimmungsbewertung als übereinstimmend aufgelöst wurden. Übereinstimmende Entitätsdatensätze 160 werden identifiziert und an das MDM-System 110 gesendet, um die Duplizierung von Entitätsdatensätzen aufzulösen und die zuvor getrennten Entitätsdatensätze unter der ermittelten einzigen Entität zu verknüpfen. In einigen Ausführungsformen werden die Daten des Paares von Entitätsdatensätzen verknüpft, widersprüchliche Daten überprüft und doppelte Datensätze aus den Stammdaten entfernt.
  • Nicht aufgelöste Entitätsdatensätze 170 umfassen Entitätsdatensätze, deren Gesamtbewertung nach dem Verknüpfen der Übereinstimmungsbewertung mit der Beziehungsbewertung oberhalb des unteren Bewertungsschwellenwerts und unterhalb des oberen Bewertungsschwellenwerts liegt. Nicht aufgelöste Entitätsdatensätze 170 bleiben nicht aufgelöst, und in einigen Ausführungsformen wird ein Datenverwalter damit beauftragt, ein Auflösen der erheblich reduzierten Anzahl von nicht aufgelösten Entitätsdatensätzen auszuführen.
  • Der Server 120 ist so dargestellt, dass er das Datensatz-Verknüpfungsprogramm 300 umfasst. Der Server 120 tauscht Daten mit dem MDM-System 110 aus und leitet die von der PME 117 ausgegebenen nicht aufgelösten Entitätsdatensätze über das Netzwerk 150 an das Datensatz-Verknüpfungsprogramm 300 weiter. In einigen Ausführungsformen kann es sich bei dem Server 120 um einen Webserver, einen Blade-Server, einen Desktop-Computer, einen Laptop-Computer, einen Tablet-Computer, einen Netbook-Computer oder eine andere programmierbare elektronische Datenverarbeitungseinheit handeln, die geeignet ist, innerhalb der verteilten Datenverarbeitungsumgebung 100 über das Netzwerk 150 Daten zu empfangen, zu senden und zu verarbeiten und mit dem MDM-System 110 auszutauschen. In einer weiteren Ausführungsform stellt der Server 120 ein Datenverarbeitungssystem dar, in dem geclusterte Computer und Komponenten verwendet werden (z.B. Datenbank-Server-Computer, Anwendungs-Server-Computer usw.), die beim Zugriff innerhalb der verteilten Datenverarbeitungsumgebung 100 als ein einziger Pool von nahtlosen Ressourcen fungieren. Der Server 120 kann interne und externe Hardwarekomponenten umfassen, wie in 4 näher dargestellt und beschrieben
  • Das Datensatz-Verknüpfungsprogramm 300 wird als auf dem Server 120 betrieben und über das Netzwerk 150 mit dem MDM-System 110 zum Austauschen von Daten verbunden dargestellt. In einigen Ausführungsformen kann das Datensatz-Verknüpfungsprogramm 300 innerhalb eines Computer-Server-Systems betrieben werden, das das MDM-System 110 (nicht dargestellt) umfasst. Das Datensatz-Verknüpfungsprogramm 300 erhält eine erste Übereinstimmungsbewertung (erste Bewertung) zwischen Paarungen von nicht aufgelösten Entitätsdatensätzen, deren Übereinstimmungsbewertung auf der Grundlage von kategorialen und demografischen Daten der Stammdaten 115 ermittelt wurde; ausgenommen sind Beziehungsinformationen, wie zum Beispiel die Beziehungsinformationen 140. Nach dem Identifizieren eines Satzes von nicht aufgelösten Datensätzen ermittelt das Datensatz-Verknüpfungsprogramm 300 eine Beziehung zwischen den Paarungen, indem jeder nicht aufgelöste Entitätsdatensatz mit jedem anderen nicht aufgelösten Entitätsdatensatz gepaart wird. Das Datensatz-Verknüpfungsprogramm 300 erzeugt eine Beziehungsbewertung (zweite Bewertung) auf der Grundlage von einer Art von Beziehung und umfasst Beziehungen zwischen den gepaarten Entitäten und mit anderen Entitätsdatensätzen. Das Datensatz-Verknüpfungsprogramm 300 verknüpft die zuvor von der PME 117 des MDM-Systems 110 ermittelte Übereinstimmungsbewertung mit der Beziehungsbewertung, um eine Gesamtbewertung zu erhalten.
  • Der untere Bewertungsschwellenwert und der obere Bewertungsschwellenwert werden in der PME 117 definiert und dienen dazu, Entitätsdatensätze als nicht übereinstimmend, nicht aufgelöst bzw. übereinstimmend zu kennzeichnen. Das Datensatz-Verknüpfungsprogramm 300 empfängt die Übereinstimmungsbewertungen der jeweiligen Paarungen von Entitätsdatensätzen, die einen unteren Bewertungsschwellenwert überschreiten, aber unter einem oberen Bewertungsschwellenwert liegen, was nicht aufgelösten Entitätsdatensätzen entspricht. Das Datensatz-Verknüpfungsprogramm 300 erzeugt eine zweite Bewertung für jede Paarung der jeweiligen nicht aufgelösten Entitätsdatensätze auf der Grundlage von Beziehungsdaten, die zu den Stammdaten 115 des MDM-Systems 110 hinzugefügt wurden, nachdem die Mehrzahl von Entitäten und die entsprechenden kategorialen und demografischen Daten und Informationen der Mehrzahl von Entitäten erstmals geladen wurden.
  • In einigen Ausführungsformen wird die zweite Bewertung auf der Grundlage von Beziehungsdaten gewichtet, die eindeutiger anzeigen, dass die gepaarten Entitätsdatensätze zu derselben Entität gehören (höhere positive Bewertung) oder zu unterschiedlichen Entitäten gehören (niedrigere oder negative Bewertung). Das Datensatz-Verknüpfungsprogramm 300 verknüpft die erste Bewertung und die zweite Bewertung für jede Paarung der jeweiligen nicht aufgelösten Entitätsdatensätze, um eine Gesamtbewertung zu erhalten. Das Datensatz-Verknüpfungsprogramm 300 vergleicht die Gesamtbewertung jeder Paarung von Entitätsdatensätzen mit dem oberen und dem unteren Bewertungsschwellenwert. Wenn die Gesamtbewertung eines Paares von Entitätsdatensätzen den oberen Bewertungsschwellenwert überschreitet, stuft das Datensatz-Verknüpfungsprogramm 300 das Paar von Datensätzen als übereinstimmend ein und verknüpft oder assimiliert die Informationen der beiden getrennten Datensätze zu einem einzigen Datensatz und entfernt redundante Datensätze und Informationen aus den Stammdaten 115. Wenn die Gesamtbewertung des betrachteten Paares von Entitätsdatensätzen den unteren Bewertungsschwellenwert unterschreitet, stuft das Datensatz-Verknüpfungsprogramm 300 das Paar von Entitätsdatensätzen als nicht übereinstimmende und unterschiedliche Datensätze ein. Wenn die Gesamtbewertung des betrachteten Paares von Entitätsdatensätzen auf oder zwischen den unteren Bewertungsschwellenwert und den oberen Bewertungsschwellenwert fällt, stuft das Datensatz-Verknüpfungsprogramm 300 das betrachtete Paar von Entitätsdatensätzen als nicht aufgelöst ein, so dass eine weitere Untersuchung erforderlich ist, die häufig manuell von einem Datenverwalter durchgeführt wird.
  • In einigen Ausführungsformen der vorliegenden Erfindung erzeugt das Datensatz-Verknüpfungsprogramm 300 die zweite Bewertung auf der Grundlage von Beziehungen zwischen Entitäten, Gruppierungen von Entitäten und hierarchischen Strukturen zwischen Entitäten. Zum Beispiel kann eine Person Geschwister-, Nachkommen-, Elternbeziehungen und/oder Beziehungen im weiteren Familienkreis haben und Mitglied einer Organisation mit anderen Entitäten sein, gemeinsam mit anderen Entitäten in einem Gebiet wohnen, gemeinsam mit anderen Entitäten in einem Unternehmen arbeiten und eine Position innehaben, die in Bezug auf andere Entitäten eine hierarchische Struktur aufweist. Das Vorhandensein oder Nichtvorhandensein einer oder mehrerer Beziehungen zu einer anderen Entität der nicht aufgelösten Entitätsdatensätze kann auf der Grundlage von vordefinierten Gewichten, die für bestimmte Bedingungen einer Beziehung vergeben werden, die zweite Bewertung einer Paarung von jeweiligen nicht aufgelösten Entitätsdatensätzen erhöhen, verringern oder keine Auswirkung auf diese haben.
  • Wenn in einer anderen beispielhaften Ausführungsform zwei Entitätsdatensätze anzeigen, dass sie ein einziges Geschwisterteil haben, und jeder der Entitätsdatensätze eine Elternbeziehung umfasst, die beiden Entitätsdatensätzen gemeinsam ist, dann sind die beiden Entitäten höchstwahrscheinlich verschieden, und die Beziehungsgewichte wären niedriger und würden wahrscheinlich einen negativen Wert in Bezug auf die zweite Bewertung aufweisen, so dass die Gesamtbewertung unter den unteren Bewertungsschwellenwert fällt und damit anzeigt, dass die Entitätsdatensätze nicht übereinstimmen. Wenn zwei Entitäten über eine gemeinsame Organisationszugehörigkeit und einen gemeinsamen Namen eines Ehepartners verfügen, handelt es sich bei den beiden Entitätsdatensätzen höchstwahrscheinlich um dieselbe Entität, und die Bewertung für die Beziehungen würde positiv und höher ausfallen und somit eine Übereinstimmung der beiden Entitätsdatensätze ergeben.
  • In einigen Ausführungsformen der vorliegenden Erfindung handelt es sich bei dem Datensatz-Verknüpfungsprogramm 300 um ein maschinelles Lernmodell, auf das nach einer ersten Übereinstimmungsbewertung nicht aufgelöste Entitätsdatensätze durchgeführt werden. In einigen Ausführungsformen wird das maschinelle Lernmodell trainiert, indem Gewichtungsfaktoren ermittelt werden, die Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen eines jeweiligen Paares von nicht aufgelösten Entitätsdatensätzen von Stammdaten entsprechen, die von einem Datenverwalter manuell aufgelöst wurden, und dient somit als überwachtes Training des maschinellen Lernmodells. Nach dem Bereitstellen des Datensatz-Verknüpfungsprogramms 300 als maschinelles Lernmodell erhält das Datensatz-Verknüpfungsprogramm 300 Ergebnisse aus den zwar reduzierten, aber noch verbleibenden nicht aufgelösten Entitätsdatensätzen, die von einem Datenverwalter aufgelöst wurden, wodurch das maschinelle Lernmodell kontinuierlich verbessert wird.
  • 2A zeigt eine Kategorisierung einer probabilistischen Übereinstimmung von Entitätsdatensätzen gemäß Ausführungsformen der vorliegenden Erfindung. 2A umfasst nicht übereinstimmende Datensätze 210, nicht aufgelöste Datensätze 215, übereinstimmende Datensätze 220, den unteren Bewertungsschwellenwert 225 und den oberen Bewertungsschwellenwert 230. In Ausführungsformen der vorliegenden Erfindung werden die Entitätsdatensätze nach einer ersten Bewertung zwischen den Paarungen von Entitätsdatensätzen der Stammdaten in drei Bedingungen für ein Übereinstimmen von Entitätsdatensätzen kategorisiert. Die erste Bewertung von Entitätsdatensatz-Paaren wird von der PME 117 durchgeführt (1). Das Kategorisieren der Entitätsdatensätze der Stammdaten erfolgt auf der Grundlage der ersten Bewertung einer Paarung jedes Entitätsdatensatzes mit jedem anderen Entitätsdatensatz, was auch als die beiden zu prüfenden Entitätsdatensätze bezeichnet wird. Der untere Bewertungsschwellenwert 225 und der obere Bewertungsschwellenwert 230 werden von dem MDM-System 110 definiert und sind mit dem Bewertungsschema und den konservativen Zielen des MDM-Systems 110 abgestimmt, um falsch-negative und falsch-positive Ergebnisse zu vermeiden, die in der Regel dazu führen, dass eine erhebliche Anzahl von Entitätsdatensätzen als nicht aufgelöste Datensätzen 215 kategorisiert werden.
  • Die PME 117, die in dem Stammdaten-Verwaltungssystem 110 betrieben wird, führt Vergleiche von Entitätsdatensätzen durch, um eine erste Bewertung zu ermitteln. Die PME 117 vergleicht einen Entitätsdatensatz mit einem anderen Entitätsdatensatz und erhält eine Bewertung auf der Grundlage davon, ob die Attribute der Entitätsdatensätze übereinstimmen oder fast übereinstimmen, so dass eine Übereinstimmung der Attribute die erste Bewertung erhöht, während eine fehlende Übereinstimmung keine Auswirkungen hat oder die erste Bewertung verringert. Die PME 117 führt die Vergleiche iterativ für Kombinationen von der Mehrzahl von Entitätsdatensätzen durch. Die PME 117 vergleicht die erste Bewertung mit dem unteren Bewertungsschwellenwert 225 und dem oberen Bewertungsschwellenwert 230, um die Kategorisierung des Paares von Entitätsdatensätzen zu ermitteln. Wenn die PME 117 feststellt, dass die erste Bewertung eines Entitätsdatensatzes den unteren Bewertungsschwellenwert 225 unterschreitet, ordnet die PME 117 den Entitätsdatensatz den nicht übereinstimmenden Datensätzen 210 zu. Wenn die PME 117 feststellt, dass die erste Bewertung den oberen Bewertungsschwellenwert 230 überschreitet, ordnet die PME 117 das Paar von Entitätsdatensätzen den übereinstimmenden Datensätzen 220 zu, und wenn die erste Bewertung bei oder zwischen dem unteren Bewertungsschwellenwert 225 und dem oberen Bewertungsschwellenwert 230 liegt, ordnet die PME 117 das Paar von Entitätsdatensätzen den nicht aufgelösten Datensätzen 215 zu.
  • 2B zeigt eine Tabelle, die eine beispielhafte gewichtete Bewertung von Entitäts-Beziehungstypen gemäß Ausführungsformen der vorliegenden Erfindung umfasst. 2B umfasst den Geschwister-Beziehungstyp 240, den Eltern-Beziehungstyp 242, den Ehepartner-Beziehungstyp 244 und den Arbeitgeber-Beziehungstyp 246 als jeweilige Spalten der Beziehungsbewertungstabelle 270. Die Beziehungsbewertungstabelle 270 umfasst Zeile 250, die Beispiele für die Beziehungsbewertung (zweite Bewertung) von zwei zu prüfenden Entitätsdatensätzen von nicht aufgelösten Stammdaten in der Form „a, b“ umfasst, wobei es sich bei „a“ um ein Gewicht für die Beziehung zwischen den beiden zu prüfenden Entitätsdatensätzen und bei „b“ um ein Gewicht für keine Beziehung handelt. 2B umfasst Zeile 260, die Bewertungsbeispiele für eine Beziehung der beiden zu prüfenden Entitätsdatensätze im Format „x, y, z“ darstellt, wobei es sich bei „x“ um den Gewichtswert einer Beziehung des Paars von Entitätsdatensätzen zu einer anderen gemeinsamen Entität handelt, bei „y“ um den Gewichtswert einer Beziehung des Paars von Entitätsdatensätzen zu verschiedenen anderen Entitäten und bei „z“ um einen Gewichtswert, der keine Beziehung zu anderen Entitäten anzeigt.
  • Zeile 250 und der Geschwister-Beziehungstyp 240 zeigen ein Gewicht einer Beziehungsbewertung für eine Geschwisterbeziehung zwischen dem zu prüfenden Paar von Entitätsdatensätzen an, und es wird daher ein großes negatives Gewicht zugewiesen (Position „a“), weil es unwahrscheinlich ist, dass es sich bei den beiden Entitätsdatensätzen um verschiedene Entitätsdatensätze handelt. Das Gewicht „b“, das keine Beziehung anzeigt, wird auf einem Wert von Null gehalten, da die Entitätsdatensätze des zu prüfenden Paares eine Geschwisterbeziehung bestätigen.
  • Zeile 250 und der Eltern-Beziehungstyp 242 stellen ein beispielhaftes Gewicht eine Beziehungsbewertung für eine Eltern-Kind-Beziehung zwischen dem Paar von Entitätsdatensätzen dar, und Zeile 250 und der Ehepartner-Beziehungstyp 244 stellen ein beispielhaftes Gewicht für eine Beziehungsbewertung dar, bei der die beiden Entitätsdatensätze eine Ehepartner-Ehepartner-Beziehung aufweisen. Wenn die beiden zu prüfenden Entitätsdatensätze eine Eltern- oder Ehepartnerbeziehung umfassen, handelt es sich bei den Entitätsdatensätzen höchstwahrscheinlich nicht um dieselben Entitäten, und der Beziehungsbewertung (zweite Bewertung) wird ein hohes negatives Gewicht zugewiesen, um die Gesamtbewertung unter den unteren Bewertungsschwellenwert zu senken. Zeile 250 und der Arbeitgeber-Beziehungstyp 246 stellen eine Beziehung zwischen dem Paar von Entitätsdatensätzen dar, und zwar, dass ein gemeinsamer Arbeitgeber vorliegt. Das Gewicht, das der beispielhaften Beziehungsbewertung zugewiesen wird, beträgt Null und hat keinen gewichteten Einfluss auf die Beziehungsbewertung, da es relativ wahrscheinlich ist, dass verschiedene Entitäten für denselben Arbeitgeber tätig sind.
  • Zeile 260 zeigt beispielhafte Gewichte für die zweite Bewertung (Beziehungsbewertung) auf der Grundlage von Geschwister-, Eltern-, Ehepartner- und Arbeitgeberbeziehungen an. Zeile 260 und der Geschwister-Beziehungstyp 240 stellen eine gemeinsame Geschwisterbeziehung des Paares von Entitätsdatensätzen mit einer anderen Entität dar (Position „x“) und erhalten ein geringeres Gewicht von zehn, da die beiden Datensätze derselben Entität angehören könnten oder ein drittes Geschwisterteil vorhanden sein könnte, das mit beiden verwandt ist. Zeile 260 und der Eltern-Beziehungstyp 242 stellen eine gemeinsame Elternbeziehung des Paares von Entitätsdatensätzen mit einer anderen Entität dar (Position „y“) und erhalten ein Gewicht von fünfzehn, da es sich bei dem Paar von Datensätzen um dieselbe Entität oder um Geschwister handeln kann. Zeile 260 und der Ehepartner-Beziehungstyp 244 stellen eine gemeinsame Ehepartner-Beziehung dar und erhalten ein höheres Gewicht von 50, da es sich bei dem Paar von Entitätsdatensätzen mit hoher Wahrscheinlichkeit um dieselbe Entität handelt. Zeile 260 und der Arbeitgeber-Beziehungstyp 246 stellen beispielhafte Gewichte für die zweite Bewertung auf der Grundlage einer Beziehung zwischen den zu prüfenden Entitätsdatensätzen und einem Arbeitgeber dar.
  • Die beispielhaften Gewichte von 2A und 2B sollen die Beziehungsüberlegungen beim Ermitteln widerspiegeln, ob es sich bei gepaarten Entitätsdatensätzen wahrscheinlich um dieselbe Entität handelt und die Datensätze übereinstimmen, oder ob die Entitätsdatensätze verschieden sind. Bei den Größen der Gewichte handelt es sich um Beispiele, und Implementierungen von Ausführungsformen der vorliegenden Erfindung umfassen ein Berücksichtigen der Verwaltung der jeweiligen Stammdaten.
  • 3 zeigt einen Ablaufplan, der funktionsmäßige Schritte des Datensatz-Verknüpfungsprogramms 300 darstellt, das in der verteilten Datenverarbeitungsumgebung von 1 gemäß Ausführungsformen der vorliegenden Erfindung betrieben wird.
  • Das Datensatz-Verknüpfungsprogramm 300 empfängt eine erste Bewertung, die einer Übereinstimmung zwischen den jeweiligen Entitätsdatensätzen von Stammdaten zugehörig ist (Schritt 310). In einigen Ausführungsformen der vorliegenden Erfindung werden Entitätsdatensätze von Stammdaten, die gemeinsame oder ähnliche Attribute aufweisen, gepaart und von einer probabilistischen Übereinstimmungs-Steuerroutine bewertet (erste Bewertung), um zu ermitteln, ob es sich bei dem Paar von Entitätsdatensätzen um dieselbe Entität oder um unterschiedliche Entitäten handelt oder ob es nicht eindeutig ist, ob es sich bei den Entitätsdatensätzen um dieselbe oder um unterschiedliche Entitäten handelt, welche als nicht aufgelöst eingestuft werden.
  • Zum Beispiel wird ein Paar von Entitätsdatensätzen von Stammdaten, die über dasselbe Nachnamensattribut verfügen, von der probabilistischen Übereinstimmungs-Steuerroutine 117 des MDM-Systems 110 verarbeitet, was eine erste Bewertung der Übereinstimmung zwischen dem Paar von Entitätsdatensätzen ergibt.
  • Das Datensatz-Verknüpfungsprogramm 300 identifiziert einen Satz von nicht aufgelösten Entitätsdatensätzen (Schritt 320). In Ausführungsformen der vorliegenden Erfindung empfängt das Datensatz-Verknüpfungsprogramm 300 die Entitätsdatensätze, die nach einer ersten Übereinstimmungsbewertung, bei der Paare von Entitätsdatensätzen, die weder als übereinstimmende noch als unterschiedliche Datensätze eingestuft wurden, als „nicht aufgelöst“ kategorisiert wurden. In einigen Ausführungsformen werden ein oberer Bewertungsschwellenwert und ein unterer Bewertungsschwellenwert festgelegt, und eine probabilistische Übereinstimmungs-Steuerroutine wendet die Bewertungsschwellenwerte an, um übereinstimmende und nicht übereinstimmende Paare von Entitätsdatensätzen zu ermitteln. Der obere Bewertungsschwellenwert und der untere Bewertungsschwellenwert werden konservativ ermittelt, um eine falsch-positive oder falsch-negative Übereinstimmung von Entitätsdatensätzen zu vermeiden. Die konservativen Schwellenwerte führen dazu, dass eine erhebliche Anzahl von Entitätsdatensätzen nach einem ersten Ermitteln mittels einer Übereinstimmungsbewertung als „nicht aufgelöst“ kategorisiert wird. Das Datensatz-Verknüpfungsprogramm 300 legt die nicht aufgelösten Entitätsdatensätze als einen Satz für eine zusätzliche Übereinstimmungsauflösung fest.
  • Zum Beispiel wird eine Mehrzahl von Daten- und Informationssätzen der Stammdaten 115, die einer Mehrzahl von Entitäten entsprechen, von der PME 117 des MDM-Systems 110 verarbeitet. Die PME 117 erzeugt eine Wahrscheinlichkeitsbewertung für eine Übereinstimmung von Datensätzen (erste Bewertung) für Paare von Entitätsdatensätzen und kategorisiert die Datensätze als „übereinstimmend“ auf der Grundlage davon, dass die Übereinstimmungsbewertung eines Paares von Entitätsdatensätzen einen oberen Bewertungsschwellenwert überschreitet. Die PME 117 kann Paare von Entitätsdatensätzen als „nicht übereinstimmend“ kategorisieren, auf der Grundlage davon, dass die Übereinstimmungsbewertung einen unteren Bewertungsschwellenwert unterschreitet, und die Paare von Entitätsdatensätzen mit einer ersten Übereinstimmungsbewertung auf oder zwischen dem unteren Bewertungsschwellenwert und dem oberen Bewertungsschwellenwert werden als „nicht aufgelöst“ kategorisiert. Das Datensatz-Verknüpfungsprogramm 300 identifiziert die Entitätsdatensätze mit einer ersten Übereinstimmungsbewertung auf oder zwischen dem unteren Bewertungsschwellenwert und dem oberen Bewertungsschwellenwert als einen Satz von nicht aufgelösten Entitätsdatensätzen.
  • Das Datensatz-Verknüpfungsprogramm 300 erzeugt eine zweite Bewertung, die einer Beziehung von Paarungen der nicht aufgelösten Entitätsdatensätze zugehörig ist (Schritt 330). Systeme zur Stammdatenverwaltung (MDM) berücksichtigen grundlegende kategoriale und identifizierende Informationen zum Auflösen von Entitätsdatensätzen, zum Beispiel Name, Adresse/Standort, Telefonnummer, Konten, Daten, usw. In Ausführungsformen der vorliegenden Erfindung enthalten MDM-Systeme qualifizierte Beziehungsinformationen, die verwendet werden, um eine zweite Bewertung zu erzeugen, die den Beziehungen zwischen Entitätsdatensätzen und zwischen einem Paar von Entitätsdatensätzen und anderen Entitätsdatensätzen der Stammdaten zugehörig ist. Ausführungsformen der vorliegenden Erfindung umfassen bekannte und qualifizierte Informationen, die der Hierarchie und den Gruppierungen von Entitäten zugehörig sind, wie sie in den Entitätsdatensätzen der Stammdaten in Form von Beziehungsbewertungen angezeigt werden.
  • Das Datensatz-Verknüpfungsprogramm 300 führt eine Gewichtung der Übereinstimmungsbewertung eines Paares von nicht aufgelösten Entitätsdatensätzen durch. In einigen Ausführungsformen wird eine positive Gewichtung für Beziehungs-, Hierarchie- und Gruppierungsinformationen durchgeführt, die dafür sprechen, dass die Entitätsdatensätze wahrscheinlich von der gleichen Entität stammen und wahrscheinlich übereinstimmen. In einigen Ausführungsformen können Beziehungsinformationen in hohem Maße dafür sprechen, dass ein Satz von Entitätsdatensätzen übereinstimmt, so dass die Gewichtung deutlich höher ist. In anderen Ausführungsformen zeigen die Beziehungsinformationen an, dass die Datensätze höchstwahrscheinlich von unterschiedlichen Entitäten stammen, und es wird ihnen ein Gewicht von Null oder ein negativer Gewichtswert zugewiesen. In einigen Ausführungsformen berücksichtigt das Datensatz-Verknüpfungsprogramm 300 beim Ermitteln der Beziehungsbewertung (zweite Bewertung) Beziehungs-, Hierarchie- und Gruppierungsinformationen, die hier zusammenfassend als „Beziehungsinformationen“ bezeichnet werden, eines Paares von nicht aufgelösten, zu prüfenden Entitätsdatensätzen mit einem oder mehreren anderen Entitätsdatensätzen.
  • Zum Beispiel stellt das Datensatz-Verknüpfungsprogramm 300 fest, dass die Entitätsdatensätze eines Paares von Entitätsdatensätzen mit verschiedenen Arbeitgebern verknüpft sind und Beziehungen zu verschiedenen Ehepartnern haben. Das Datensatz-Verknüpfungsprogramm 300 wendet ein großes negatives Gewicht (z.B. -100) auf die Paarung von Datensätzen an, da es sich um unterschiedliche Datensätze handelt. Bei einem anderen Paar von Entitätsdatensätzen liegen eine Geschwisterbeziehung zu einer gemeinsamen Entität sowie eine gemeinsame Elternbeziehung vor. Das Datensatz-Verknüpfungsprogramm 300 weist den Datensätzen ein positives Gewicht von zehn zu, da die Datensätze wahrscheinlich von derselben Entität stammen; es könnte jedoch ein drittes Geschwisterteil geben, mit dem die beiden Entitäten der Entitätsdatensätze verwandt sind, so dass ein etwas niedrigeres Gewicht zugewiesen wird. In einigen Ausführungsformen können die Beziehungsinformationen auf der Grundlage von „Entität-aus-Id“, „Entität-zu-Id“ und „Beziehungstyp“ indiziert oder in Bereiche eingeteilt werden, um das Ermitteln und Auswählen einer Beziehung zu beschleunigen.
  • Das Datensatz-Verknüpfungsprogramm 300 erzeugt eine Gesamtbewertung, indem es die erste Bewertung und die zweite Bewertung verknüpft (Schritt 340). Das Datensatz-Verknüpfungsprogramm 300 verknüpft die erste Bewertung, die von einer anfänglichen Wahrscheinlichkeits-Übereinstimmungs-Steuerroutine erzeugt wurde, mit der zweiten Bewertung, die aus Beziehungsinformationen erzeugt wurde, um die Gesamtbewertung für das Paar von nicht aufgelösten, zu prüfenden Entitätsdatensätzen zu erzeugen. In einigen Ausführungsformen handelt es sich bei der Gesamtbewertung um eine arithmetische Summe aus der Übereinstimmungsbewertung und der Beziehungsbewertung. In anderen Ausführungsformen kann die Beziehungsbewertung einen positiven oder negativen Faktor umfassen, der mit dem Übereinstimmungsergebnis der ersten Bewertung multipliziert wird, zum Beispiel mit einem Faktor von -1,25, der die erste Bewertung um 25 % verringern würde.
  • Das Datensatz-Verknüpfungsprogramm 300 ermittelt, ob die Gesamtbewertung einer Übereinstimmung von Paaren von Entitätsdatensätzen einen oberen Bewertungsschwellenwert überschreitet (Entscheidungsschritt 350). Das Datensatz-Verknüpfungsprogramm 300 vergleicht die Gesamt-Übereinstimmungsbewertung des Paares von Entitätsdatensätzen mit dem zuvor festgelegten oberen Bewertungsschwellenwert, um zu ermitteln, ob die Gesamtbewertung den oberen Schwellenwert überschreitet. In einigen Ausführungsformen der vorliegenden Erfindung überschreitet die Gesamt-Übereinstimmungsbewertung durch die Beziehungsbewertung des Paares von Entitätsdatensätzen den oberen Bewertungsschwellenwert, während in anderen Ausführungsformen die Beziehungsbewertung einen deutlich negativen Wert aufweist und die Gesamt-Übereinstimmungsbewertung den unteren Bewertungsschwellenwert unterschreitet.
  • Für den Fall, dass die Gesamtbewertung den oberen Bewertungsschwellenwert nicht überschreitet (Schritt 350, Verzweigung „NEIN“), ermittelt das Datensatz-Verknüpfungsprogramm 300, ob die Gesamtbewertung den unteren Bewertungsschwellenwert unterschreitet (Entscheidungsschritt 370). In Schritt 370 vergleicht das Datensatz-Verknüpfungsprogramm 300 die Gesamtbewertung einer Übereinstimmung des Paares von nicht aufgelösten Entitätsdatensätzen mit dem unteren Bewertungsschwellenwert und ermittelt, ob die Gesamtbewertung den unteren Bewertungsschwellenwert unterschreitet.
  • Für den Fall, dass die Gesamtbewertung den unteren Bewertungsschwellenwert unterschreitet (Schritt 370, Verzweigung „JA“), kategorisiert das Datensatz-Verknüpfungsprogramm 300 das Paar von Entitätsdatensätzen als „nicht übereinstimmend“ (Schritt 380). Nachdem das Datensatz-Verknüpfungsprogramm 300 festgestellt hat, dass die Gesamtbewertung einer Übereinstimmung des Paares von nicht aufgelösten Entitätsdatensätzen den unteren Bewertungsschwellenwert unterschreitet, kategorisiert es das Paar von Entitätsdatensätzen als „nicht übereinstimmend“ und kommt so zu dem Ergebnis, dass die Datensätze von unterschiedlichen Entitäten stammen.
  • Für den Fall, dass die Gesamtbewertung bei oder über dem unteren Bewertungsschwellenwert liegt, aber im vorherigen Schritt 350 festgestellt wurde, dass die Gesamtbewertung bei oder unter dem oberen Bewertungsschwellenwert liegt (Schritt 370, Verzweigung „NEIN“), kategorisiert das Datensatz-Verknüpfungsprogramm 300 das Paar von Entitätsdatensätzen als „nicht aufgelöst“ (Schritt 390), und das Auflösen der verbleibenden nicht aufgelösten Entitätsdatensätze aus der Gesamtbewertung erfordert eine zusätzliche Untersuchung, um sie aufzulösen. Nach dem Vergleichen der Gesamtbewertung des Paares von Entitätsdatensätzen und dem Ermitteln der Übereinstimmungskategorie der Entitätsdatensätze wird das Datensatz-Verknüpfungsprogramm 300 beendet.
  • Kehrt man zu Schritt 350 zurück und betrachtet den Fall, in dem das Datensatz-Verknüpfungsprogramm 300 feststellt, dass die Gesamtbewertung den oberen Bewertungsschwellenwert überschreitet (Schritt 350, Verzweigung „JA“), verknüpft das Datensatz-Verknüpfungsprogramm 300 die Informationen der beiden Entitätsdatensätze des Paares zu einem einzigen Entitätsdatensatz (Schritt 360). Das Datensatz-Verknüpfungsprogramm 300 verknüpft Informationen aus den zu prüfenden Entitätsdatensätzen zu einem einzigen Datensatz und entfernt redundante Informationen und den doppelten Datensatz aus den Stammdaten.
  • Zum Beispiel stellt das Datensatz-Verknüpfungsprogramm 300 fest, dass eine Telefonnummer und eine Adresse des neueren Entitätsdatensatzes die Telefonnummer und die Adresse des älteren Entitätsdatensatzes ersetzen. Das Datensatz-Verknüpfungsprogramm 300 fügt dem aktualisierten Entitätsdatensatz neue Informationen über die Gruppenzugehörigkeit und das Geburtsdatum der Entität hinzu, die im neueren Entitätsdatensatz gefunden wurden, und verwirft die doppelten Datensatzattribute und den doppelten Entitätsdatensatz, so dass ein einziger Datensatz für die Entität mit verknüpften und aktualisierten Datensatzattributen verbleibt.
  • In einigen Ausführungsformen wird das zusätzliche Auflösen der nicht aufgelösten Entitätsdatensätze manuell von Datenverwaltern durchgeführt. In Ausführungsformen der vorliegenden Erfindung wird durch Einbeziehen einer zweiten Bewertung auf der Grundlage von bekannten und qualifizierten Beziehungsinformationen der Entitäten, deren Entitätsdatensätze geprüft werden, die Menge der als „nicht aufgelöst“ verbleibenden Entitätsdatensätze erheblich reduziert, wodurch der Zeit- und Kostenaufwand für ein manuelles Auflösen durch Datenverwalter erheblich verringert sowie vermieden wird, dass durch ein Nichtberücksichtigen der nicht aufgelösten Entitätsdatensätze ein Verlust an Genauigkeit und Qualität der Stammdatensätze entsteht.
  • 4 zeigt ein Blockschaubild von Komponenten eines Datenverarbeitungssystems, zum Beispiel Datenverarbeitungseinheit 405, die so konfiguriert ist, dass sie die in 1 dargestellten Komponenten umfasst oder funktionsmäßig mit ihnen verbunden ist, und die geeignet ist, das Datensatz-Verknüpfungsprogramm 300 von 3 gemäß einer Ausführungsform der vorliegenden Erfindung funktionsmäßig durchzuführen.
  • Die Datenverarbeitungseinheit 405 umfasst Komponenten und Funktionsfähigkeiten, die denen der Komponenten des Servers 120 (1) gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung ähnlich sind. Es sei darauf hingewiesen, dass 4 nur eine beispielhafte Darstellung einer Ausführungsform bereitstellt und keine Einschränkungen in Bezug auf die Umgebungen impliziert, in denen verschiedene Ausführungsformen implementiert werden können. Es können viele Änderungen an der dargestellten Umgebung vorgenommen werden.
  • Die Datenverarbeitungseinheit 405 umfasst eine Datenübertragungsstruktur 402, die eine Datenübertragung zwischen Computerprozessor(en) 404, Speicher 406, dauerhaftem Speicher 408, Datenübertragungseinheit 410 sowie Eingabe/Ausgabe-(E/A-) Schnittstelle(n) 412 bereitstellt. Die Datenübertragungsstruktur 402 kann mit jeder Architektur implementiert werden, die für die Übertragung von Daten und/oder Steuerinformationen zwischen Prozessoren (wie Mikroprozessoren, Datenübertragungs- und Netzwerkprozessoren usw.), Systemspeicher, peripheren Einheiten und anderen Hardwarekomponenten innerhalb eines Systems konzipiert ist. Zum Beispiel kann die Datenübertragungsstruktur 402 mit einem oder mehreren Bussen implementiert werden.
  • Bei dem Speicher 406, dem Cache-Speicher 416 und dem dauerhaften Speicher 408 handelt es sich um durch einen Computer lesbare Speichermedien. In dieser Ausführungsform umfasst der Speicher 406 einen Direktzugriffsspeicher (RAM) 414. Im Allgemeinen kann es sich bei dem Speicher 406 um jedes geeignete flüchtige oder nichtflüchtige durch einen Computer lesbare Speichermedium handeln.
  • In einer Ausführungsform wird das Datensatz-Verknüpfungsprogramm 300 in dem dauerhaften Speicher 408 gespeichert, um von einem oder mehreren der jeweiligen Computerprozessoren 404 über einen oder mehrere Speicher des Speichers 406 ausgeführt zu werden. In dieser Ausführungsform umfasst der dauerhafte Speicher 408 ein magnetisches Festplattenlaufwerk. Alternativ oder zusätzlich zu einem magnetischen Festplattenlaufwerk kann der dauerhafte Speicher 408 einen Halbleiterdatenträger, eine Halbleiterspeichereinheit, einen Nur-Lese-Speicher (ROM), einen elektronisch löschbaren programmierbaren Nur-Lese-Speicher (EPROM), einen Flash-Speicher oder jedes andere durch einen Computer lesbare Speichermedium umfassen, das Programmanweisungen oder digitale Informationen speichern kann.
  • Die von dem dauerhaften Speicher 408 verwendeten Medien können auch wechselbar sein. Es kann zum Beispiel eine wechselbare Festplatte für den dauerhaften Speicher 408 verwendet werden. Andere Beispiele umfassen optische Platten und Magnetplatten, USB-Sticks und Speicherkarten, die in ein Laufwerk eingelegt werden, um auf ein anderes durch einen Computer lesbares Speichermedium übertragen zu werden, das ebenfalls Teil des dauerhaften Speichers 408 ist.
  • Die Datenübertragungseinheit 410 stellt in diesen Beispielen eine Datenübertragung zu anderen Datenverarbeitungssystemen oder -einheiten bereit, zum Beispiel Ressourcen der verteilten Datenverarbeitungsumgebung 100. In diesen Beispielen umfasst die Datenübertragungseinheit 410 eine oder mehrere Netzwerk-Schnittstellenkarten. Die Datenübertragungseinheit 410 kann eine Datenübertragung mittels physischer und/oder drahtloser Datenübertragungsverbindungen bereitstellen. Das Datensatz-Verknüpfungsprogramm 300 kann über die Datenübertragungseinheit 410 in den dauerhaften Speicher 408 geladen werden.
  • Die E/A-Schnittstelle(n) 412 ermöglicht (ermöglichen) eine Eingabe und Ausgabe von Daten von anderen/an andere Einheiten, die mit dem Datenverarbeitungssystem 400 verbunden werden können. Zum Beispiel kann die E/A-Schnittstelle 412 eine Verbindung zu externen Einheiten 418 bereitstellen, zum Beispiel mit einer Tastatur, einem Tastenfeld, einem Berührungsbildschirm und/oder einer anderen geeigneten Eingabeeinheit. Die externen Einheiten 418 können auch tragbare, durch einen Computer lesbare Speichermedien umfassen, zum Beispiel USB-Sticks, tragbare optische oder magnetische Festplatten und Speicherkarten. Software und Daten, die zum Durchführen von Ausführungsformen der vorliegenden Erfindung verwendet werden, zum Beispiel das Datensatz-Verknüpfungsprogramm 300, können auf solchen tragbaren, durch einen Computer lesbaren Speichermedien gespeichert und über die E/A-Schnittstelle(n) 412 in den dauerhaften Speicher 408 geladen werden. Die E/A-Schnittstelle(n) 412 ist (sind) auch mit einer Anzeige 420 verbunden.
  • Die Anzeige 420 stellt einen Mechanismus zur Anzeige von Daten für einen Benutzer bereit, wobei es sich zum Beispiel um einen Computermonitor handeln kann.
  • Die hierin beschriebenen Programme werden auf der Grundlage von der Anwendung identifiziert, für die sie in einer bestimmten Ausführungsform der Erfindung implementiert sind. Es sollte jedoch beachtet werden, dass eine bestimmte Programm-Nomenklatur hierin nur der Einfachheit halber verwendet wird, und daher sollte die Erfindung nicht auf ein Verwenden in einer bestimmten Anwendung beschränkt werden, die mittels einer solchen Nomenklatur identifiziert und/oder impliziert wird.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailstufe der Integration handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) umfassen, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbare Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder bzw. Blockschaltbilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Flussdiagramm-Darstellungen und/oder der Blockschaubilder bzw. Blockschaltbilder sowie Kombinationen von Blöcken in den Flussdiagramm-Darstellungen und/oder den Blockschaubildern bzw. Blockschaltbildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder bzw. Blockschaltbilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder bzw. Blockschaltbilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken des Flussdiagramms und/oder des Blockschaubilds bzw. Blockschaltbilds festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaubilder bzw. Blockschaltbilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern bzw. Blockschaltbildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit in einem Schritt gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder bzw. Blockschaltbilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern bzw. Blockschaltbildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.

Claims (20)

  1. Verfahren zum Auflösen von Entitätsdatensätzen eines Systems zur Stammdatenverwaltung (master data management, MDM), wobei das Verfahren aufweist: Empfangen einer ersten Bewertung durch einen oder mehrere Prozessoren, die einer Übereinstimmung zwischen jeweiligen Entitätsdatensätzen einer Mehrzahl von Entitäten von Stammdaten eines MDM-Systems zugehörig ist; Identifizieren eines Satzes von nicht aufgelösten Entitätsdatensätzen durch den einen oder die mehreren Prozessoren, wobei die erste Bewertung zwischen Paarungen von jeweiligen Entitätsdatensätzen des Satzes von nicht aufgelösten Entitätsdatensätzen über einem unteren Bewertungsschwellenwert und unter einem oberen Bewertungsschwellenwert liegt; Erzeugen einer zweiten Bewertung durch den einen oder die mehreren Prozessoren, die einer Beziehung zwischen den Paarungen der jeweiligen Entitätsdatensätze der nicht aufgelösten Entitätsdatensätze zugehörig ist, auf der Grundlage von Beziehungsdaten der Mehrzahl von Entitäten, die zu den Stammdaten des MDM-Systems hinzugefügt wurden; Erzeugen einer Gesamtbewertung durch den einen oder die mehreren Prozessoren durch Verknüpfen der ersten Bewertung und der zweiten Bewertung für die Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen; Ermitteln durch den einen oder die mehreren Prozessoren, ob die den Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zugehörige Gesamtbewertung den oberen Schwellenwert überschreitet; und als Reaktion darauf, dass die Gesamtbewertung des Paares der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen den oberen Schwellenwert überschreitet, Verknüpfen von Informationen der Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zu einem einzigen Entitätsdatensatz durch den einen oder die mehreren Prozessoren.
  2. Verfahren nach Anspruch 1, wobei die erste Bewertung unter Ausschluss von Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen der jeweiligen Entitätsdatensätze der Mehrzahl von Entitäten der Stammdaten des MDM-Systems erzeugt wird.
  3. Verfahren nach Anspruch 1, wobei die zweite Bewertung auf der Grundlage von zusätzlichen Informationen über Beziehungs-, Gruppierungs- und Hierarchieinformationen beruht, die Entitäten des MDM-Systems zugehörig sind.
  4. Verfahren nach Anspruch 1, das ferner aufweist: Durchführen einer Prüfung der Übereinstimmung einer ersten Entität der Mehrzahl von Entitäten des MDM-Systems mit einer zweiten Entität der Mehrzahl von Entitäten für jede Entität der Mehrzahl von Entitäten durch den einen oder die mehreren Prozessoren; und Erzeugen der ersten Bewertung durch den einen oder die mehreren Prozessoren, die einer Übereinstimmung der ersten Entität der Mehrzahl von Entitäten mit der zweiten Entität der Mehrzahl von Entitäten zugehörig ist.
  5. Verfahren nach Anspruch 1, wobei die zweite Bewertung auf qualifizierten Daten von Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen beruht, die den Paarungen der jeweiligen nicht aufgelösten Entitätsdatensätze zugehörig sind, und Gewichtungsfaktoren für ein Feststellen einer Beziehung der Paarungen der jeweiligen nicht aufgelösten Entitätsdatensätze mit einer dritten Entität und Gewichtungsfaktoren für ein Feststellen keiner Beziehung umfasst.
  6. Verfahren nach Anspruch 1, das ferner aufweist: Entfernen von redundanten Entitätsdatensätzen aus den Stammdaten des MDM-Systems durch den einen oder die mehreren Prozessoren als Reaktion auf das Verknüpfen von Informationen der Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zu dem einzigen Entitätsdatensatz.
  7. Verfahren nach Anspruch 1, das ferner aufweist: Erzeugen eines maschinellen Lernmodells durch den einen oder die mehreren Prozessoren, das die zweite Bewertung erzeugt, die der Beziehung zwischen den Paarungen des Satzes von jeweiligen nicht aufgelösten Entitätsdatensätzen zugehörig ist, auf der Grundlage der Beziehungsdaten der Mehrzahl von Entitäten; Empfangen von zweiten Bewertungen und Gewichtungsfaktoren durch den einen oder die mehreren Prozessoren, die Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen des Satzes von nicht aufgelösten Entitätsdatensätzen entsprechen; Trainieren des maschinellen Lernmodells durch den einen oder die mehreren Prozessoren, indem die zweiten Bewertungen und die Gewichtungsfaktoren, die den Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen des Satzes von nicht aufgelösten Entitätsdatensätzen entsprechen, als überwachtes Lernen durchgeführt werden; und Durchführen des maschinellen Lernmodells, das durch die zweiten Bewertungen und die Gewichtungsfaktoren des Satzes von nicht aufgelösten Entitätsdatensätzen trainiert wurde, auf einen neuen Satz von nicht aufgelösten Entitätsdatensätzen durch den einen oder die mehreren Prozessoren.
  8. Computerprogrammprodukt zum Auflösen von Entitätsdatensätzen eines Systems zur Stammdatenverwaltung (MDM), wobei das Computersystem aufweist: ein oder mehrere durch einen Computer lesbare Speichermedien; Programmanweisungen, die auf dem einen oder den mehreren durch einen Computer lesbaren Speichermedien gespeichert sind, wobei die Programmanweisungen aufweisen: Programmanweisungen zum Empfangen einer ersten Bewertung, die einer Übereinstimmung zwischen jeweiligen Entitätsdatensätzen einer Mehrzahl von Entitäten von Stammdaten eines MDM-Systems zugehörig ist; Programmanweisungen zum Identifizieren eines Satzes von nicht aufgelösten Entitätsdatensätzen, wobei die erste Bewertung zwischen Paarungen von jeweiligen Entitätsdatensätzen des Satzes von nicht aufgelösten Entitätsdatensätzen über einem unteren Bewertungsschwellenwert und unter einem oberen Bewertungsschwellenwert liegt; Programmanweisungen zum Erzeugen einer zweiten Bewertung, die einer Beziehung zwischen den Paarungen der jeweiligen Entitätsdatensätze der nicht aufgelösten Entitätsdatensätze zugehörig ist, auf der Grundlage von Beziehungsdaten der Mehrzahl von Entitäten, die zu den Stammdaten des MDM-Systems hinzugefügt wurden; Programmanweisungen zum Erzeugen einer Gesamtbewertung durch Verknüpfen der ersten Bewertung und der zweiten Bewertung für die Paarungen von Entitätsdatensätzen für die jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen; Programmanweisungen zum Ermitteln, ob die den Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zugehörige Gesamtbewertung den oberen Schwellenwert überschreitet; und als Reaktion darauf, dass die Gesamtbewertung des Paares der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen den oberen Schwellenwert überschreitet, Programmanweisungen zum Verknüpfen von Informationen der Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zu einem einzigen Entitätsdatensatz.
  9. Computerprogrammprodukt nach Anspruch 8, wobei die erste Bewertung unter Ausschluss von Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen der jeweiligen Entitätsdatensätze der Mehrzahl von Entitäten der Stammdaten des MDM-Systems erzeugt wird.
  10. Computerprogrammprodukt nach Anspruch 8, wobei die zweite Bewertung auf der Grundlage von zusätzlichen Informationen über Beziehungs-, Gruppierungs- und Hierarchieinformationen beruht, die Entitäten des MDM-Systems zugehörig sind.
  11. Computerprogrammprodukt nach Anspruch 8, das ferner aufweist: Programmanweisungen zum Durchführen einer Prüfung der Übereinstimmung einer ersten Entität der Mehrzahl von Entitäten des MDM-Systems mit einer zweiten Entität der Mehrzahl von Entitäten für jede Entität der Mehrzahl von Entitäten; und Programmanweisungen zum Erzeugen der ersten Bewertung, die einer Übereinstimmung der ersten Entität der Mehrzahl von Entitäten mit der zweiten Entität der Mehrzahl von Entitäten zugehörig ist.
  12. Computerprogrammprodukt nach Anspruch 8, wobei die zweite Bewertung auf Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen beruht, die den Paarungen der jeweiligen nicht aufgelösten Entitätsdatensätze zugehörig sind, und Gewichtungsfaktoren für ein Feststellen einer Beziehung der Paarungen der jeweiligen nicht aufgelösten Entitätsdatensätze mit einer dritten Entität und Gewichtungsfaktoren für ein Feststellen keiner Beziehung umfasst.
  13. Computerprogrammprodukt nach Anspruch 8, das ferner aufweist: Programmanweisungen zum Entfernen von redundanten Entitätsdatensätzen aus den Stammdaten des MDM-Systems als Reaktion auf das Verknüpfen von Informationen der Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zu dem einzigen Entitätsdatensatz.
  14. Computerprogrammprodukt nach Anspruch 8, das ferner aufweist: Programmanweisungen zum Erzeugen eines maschinellen Lernmodells, das die zweite Bewertung erzeugt, die der Beziehung zwischen den Paarungen des Satzes von jeweiligen nicht aufgelösten Entitätsdatensätzen zugehörig ist, auf der Grundlage der Beziehungsdaten der Mehrzahl von Entitäten; Programmanweisungen zum Empfangen von zweiten Bewertungen und Gewichtungsfaktoren, die Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen des Satzes von nicht aufgelösten Entitätsdatensätzen entsprechen; Programmanweisungen zum Trainieren des maschinellen Lernmodells, indem die zweiten Bewertungen und die Gewichtungsfaktoren, die den Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen des Satzes von nicht aufgelösten Entitätsdatensätzen entsprechen, als überwachtes Lernen durchgeführt werden; und Programmanweisungen zum Durchführen des maschinellen Lernmodells, das durch die zweiten Bewertungen und die Gewichtungsfaktoren des Satzes von nicht aufgelösten Entitätsdatensätzen trainiert wurde, auf einen neuen Satz von nicht aufgelösten Entitätsdatensätzen.
  15. Computersystem zum Auflösen von Entitätsdatensätzen eines Systems zur Stammdatenverwaltung (MDM), wobei das Computersystem aufweist: einen oder mehrere Computerprozessoren; ein oder mehrere durch einen Computer lesbare Speichermedien; Programmanweisungen, die auf dem einen oder den mehreren durch einen Computer lesbaren Speichermedien gespeichert sind, wobei die Programmanweisungen aufweisen: Empfangen einer ersten Bewertung, die einer Übereinstimmung zwischen jeweiligen Entitätsdatensätzen einer Mehrzahl von Entitäten von Stammdaten eines MDM-Systems zugehörig ist; Programmanweisungen zum Identifizieren eines Satzes von nicht aufgelösten Entitätsdatensätzen, wobei die erste Bewertung zwischen Paarungen von jeweiligen Entitätsdatensätzen des Satzes von nicht aufgelösten Entitätsdatensätzen über einem unteren Bewertungsschwellenwert und unter einem oberen Bewertungsschwellenwert liegt; Programmanweisungen zum Erzeugen einer zweiten Bewertung, die einer Beziehung zwischen den Paarungen der jeweiligen Entitätsdatensätze der nicht aufgelösten Entitätsdatensätze zugehörig ist, auf der Grundlage von Beziehungsdaten der Mehrzahl von Entitäten, die zu den Stammdaten des MDM-Systems hinzugefügt wurden; Programmanweisungen zum Erzeugen einer Gesamtbewertung durch Verknüpfen der ersten Bewertung und der zweiten Bewertung für die Paarungen von Entitätsdatensätzen für die jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen; Programmanweisungen zum Ermitteln, ob die den Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zugehörige Gesamtbewertung den oberen Schwellenwert überschreitet; und als Reaktion darauf, dass die Gesamtbewertung des Paares der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen den oberen Schwellenwert überschreitet, Programmanweisungen zum Verknüpfen von Informationen der Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zu einem einzigen Entitätsdatensatz.
  16. Computersystem nach Anspruch 15, wobei die erste Bewertung unter Ausschluss von Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen der Entitätsdatensätze erzeugt wird und die zweite Bewertung auf zusätzlichen Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen beruht, die den jeweiligen Entitätsdatensätzen der Mehrzahl von Entitäten der Stammdaten des MDM-Systems zugehörig sind.
  17. Computersystem nach Anspruch 15, das ferner aufweist: Programmanweisungen zum Durchführen einer Prüfung der Übereinstimmung einer ersten Entität der Mehrzahl von Entitäten des MDM-Systems mit einer zweiten Entität der Mehrzahl von Entitäten für jede Entität der Mehrzahl von Entitäten; und Programmanweisungen zum Erzeugen der ersten Bewertung, die einer Übereinstimmung der ersten Entität der Mehrzahl von Entitäten mit der zweiten Entität der Mehrzahl von Entitäten zugehörig ist.
  18. Computersystem nach Anspruch 15, wobei die zweite Bewertung auf Beziehungsinformationen, Hierarchieinformationen und Gruppierungsinformationen beruht, die den Paarungen der jeweiligen nicht aufgelösten Entitätsdatensätze zugehörig sind, und Gewichtungsfaktoren für ein Feststellen einer Beziehung der Paarungen der jeweiligen nicht aufgelösten Entitätsdatensätze mit einer dritten Entität und Gewichtungsfaktoren für ein Feststellen keiner Beziehung umfasst.
  19. Computersystem nach Anspruch 15, das ferner aufweist: Programmanweisungen zum Entfernen von redundanten Entitätsdatensätzen aus den Stammdaten des MDM-Systems als Reaktion auf das Verknüpfen von Informationen der Paarungen der jeweiligen Entitätsdatensätze des Satzes von nicht aufgelösten Entitätsdatensätzen zu dem einzigen Entitätsdatensatz.
  20. Computersystem nach Anspruch 15, das ferner aufweist: Programmanweisungen zum Erzeugen eines maschinellen Lernmodells, das die zweite Bewertung erzeugt, die der Beziehung zwischen den Paarungen des Satzes von jeweiligen nicht aufgelösten Entitätsdatensätzen zugehörig ist, auf der Grundlage der Beziehungsdaten der Mehrzahl von Entitäten; Programmanweisungen zum Empfangen von zweiten Bewertungen und Gewichtungsfaktoren, die Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen des Satzes von nicht aufgelösten Entitätsdatensätzen entsprechen; Programmanweisungen zum Trainieren des maschinellen Lernmodells, indem die zweiten Bewertungen und die Gewichtungsfaktoren, die den Beziehungstypen, Hierarchiebedingungen und gemeinsamen Gruppierungsattributen des Satzes von nicht aufgelösten Entitätsdatensätzen entsprechen, als überwachtes Lernen durchgeführt werden; und Programmanweisungen zum Durchführen des maschinellen Lernmodells, das durch die zweiten Bewertungen und die Gewichtungsfaktoren des Satzes von nicht aufgelösten Entitätsdatensätzen trainiert wurde, auf einen neuen Satz von nicht aufgelösten Entitätsdatensätzen.
DE112021003058.2T 2020-07-13 2021-07-06 Verbessertes auflösen von entitäten in stammdaten unter verwendung einer qualifizierten beziehungsbewertung Pending DE112021003058T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/927,258 US11474983B2 (en) 2020-07-13 2020-07-13 Entity resolution of master data using qualified relationship score
US16/927,258 2020-07-13
PCT/CN2021/104769 WO2022012380A1 (en) 2020-07-13 2021-07-06 Improved entity resolution of master data using qualified relationship score

Publications (1)

Publication Number Publication Date
DE112021003058T5 true DE112021003058T5 (de) 2023-06-07

Family

ID=79172567

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021003058.2T Pending DE112021003058T5 (de) 2020-07-13 2021-07-06 Verbessertes auflösen von entitäten in stammdaten unter verwendung einer qualifizierten beziehungsbewertung

Country Status (6)

Country Link
US (1) US11474983B2 (de)
JP (1) JP2023534239A (de)
CN (1) CN115803726A (de)
DE (1) DE112021003058T5 (de)
GB (1) GB2611982A (de)
WO (1) WO2022012380A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230418877A1 (en) * 2022-06-24 2023-12-28 International Business Machines Corporation Dynamic Threshold-Based Records Linking

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073138A1 (en) * 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
US8250065B1 (en) * 2004-05-28 2012-08-21 Adobe Systems Incorporated System and method for ranking information based on clickthroughs
EP2631822A1 (de) 2007-12-21 2013-08-28 Thomson Reuters Global Resources Systeme, Verfahren und Software für die Ermittlung von Entitätsbeziehungen
US9727842B2 (en) 2009-08-21 2017-08-08 International Business Machines Corporation Determining entity relevance by relationships to other relevant entities
US8250008B1 (en) 2009-09-22 2012-08-21 Google Inc. Decision tree refinement
US8965848B2 (en) 2011-08-24 2015-02-24 International Business Machines Corporation Entity resolution based on relationships to a common entity
US9922290B2 (en) 2014-08-12 2018-03-20 Microsoft Technology Licensing, Llc Entity resolution incorporating data from various data sources which uses tokens and normalizes records
CN104317801B (zh) 2014-09-19 2017-07-18 东北大学 一种面向大数据的数据清洗系统及方法
US10268735B1 (en) 2015-12-29 2019-04-23 Palantir Technologies Inc. Graph based resolution of matching items in data sources
US10832186B2 (en) 2016-03-21 2020-11-10 International Business Machines Corporation Task handling in a master data management system
US10621492B2 (en) * 2016-10-21 2020-04-14 International Business Machines Corporation Multiple record linkage algorithm selector
US10262042B2 (en) 2017-05-12 2019-04-16 Ancestry.Com Operations Inc. System and method for determining that two data records relate to the same subject
US10733212B2 (en) 2017-10-16 2020-08-04 Salesforce.Com, Inc. Entity identifier clustering based on context scores
US20190362271A1 (en) 2018-05-24 2019-11-28 Wipro Limited Method and system of managing data of an entity
CN108920601B (zh) 2018-06-27 2020-12-01 中国联合网络通信集团有限公司 一种数据匹配方法及装置
US10992703B2 (en) * 2019-03-04 2021-04-27 Malwarebytes Inc. Facet whitelisting in anomaly detection
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods

Also Published As

Publication number Publication date
GB2611982A (en) 2023-04-19
US20220012219A1 (en) 2022-01-13
WO2022012380A1 (en) 2022-01-20
US11474983B2 (en) 2022-10-18
CN115803726A (zh) 2023-03-14
JP2023534239A (ja) 2023-08-08

Similar Documents

Publication Publication Date Title
DE112012005037B4 (de) Verwalten von redundanten unveränderlichen Dateien unter Verwendung von Deduplizierungen in Speicher-Clouds
DE112018005462T5 (de) Anomalie-erkennung unter verwendung von cognitive-computing
DE69934102T2 (de) System und verfahren zur model-mining von komplexen informationtechnologiesystemen
DE112020002600T5 (de) Entdecken einer semantischen bedeutung von datenfeldern anhand von profildaten der datenfelder
DE112018005167T5 (de) Aktualisieren von trainingsdaten
DE112018001876T5 (de) Adaptive beurteilung von metabeziehungen in semantischen graphen
DE112018005459T5 (de) Datenanonymisierung
DE102014204827A1 (de) Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank
DE102014116369A1 (de) Verwaltung von sprachmarkern bei internationaler datenspeicherung
DE102012220716A1 (de) Verfahren, Datenverarbeitungsvorrichtung und Programm zum Identifizieren vertraulicher Daten
DE102014116177A1 (de) Patientenrisiko-Stratifizierung durch Verknüpfen von wissengesteuerten und datengesteuerten Erkenntnissen
DE112013000725T5 (de) Überwachen von Inhaltsablagen, Identifizieren von falsch klassifizierten Inhaltsobjekten und Vorschlagen einer Neuklassifizierung
DE112021001986T5 (de) Verfahren und System zum Verarbeiten von Datenaufzeichnungen
DE102021004157A1 (de) Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten
DE102012214196A1 (de) Erkennen nicht eindeutiger Namen in einer Gruppe von Namen
DE112018001290T5 (de) Verfahren zum Schätzen der Löschbarkeit von Datenobjekten
DE102016205013A1 (de) Fingerabdruckerstellung und Vergleichen von Protokolldatenströmen
DE102021123578A1 (de) Messen der datenqualität von daten in einer graphendatenbank
DE112021003058T5 (de) Verbessertes auflösen von entitäten in stammdaten unter verwendung einer qualifizierten beziehungsbewertung
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE112021001743T5 (de) Vektoreinbettungsmodelle für relationale tabellen mit null- oder äquivalenten werten
DE112018005891T5 (de) Bibliotheks-Screening auf Krebswahrscheinlichkeit
DE112018005620T5 (de) Auftragsverwaltung in einem datenverarbeitungssystem
DE112020000873T5 (de) Automatisierte auflösung von über- und unterspezifikation in einem wissensgraphen
DE112020002892T5 (de) Aktives lernen für den datenabgleich

Legal Events

Date Code Title Description
R012 Request for examination validly filed