DE202016009111U1 - System zur Verwaltung der Datenqualität - Google Patents

System zur Verwaltung der Datenqualität Download PDF

Info

Publication number
DE202016009111U1
DE202016009111U1 DE202016009111.6U DE202016009111U DE202016009111U1 DE 202016009111 U1 DE202016009111 U1 DE 202016009111U1 DE 202016009111 U DE202016009111 U DE 202016009111U DE 202016009111 U1 DE202016009111 U1 DE 202016009111U1
Authority
DE
Germany
Prior art keywords
data
module
computer
store
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202016009111.6U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Limbus Medical Tech GmbH
Limbus Medical Technologies GmbH
Original Assignee
Limbus Medical Tech GmbH
Limbus Medical Technologies GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Limbus Medical Tech GmbH, Limbus Medical Technologies GmbH filed Critical Limbus Medical Tech GmbH
Publication of DE202016009111U1 publication Critical patent/DE202016009111U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • G06F7/026Magnitude comparison, i.e. determining the relative order of operands based on their numerical value, e.g. window comparator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Factory Administration (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

System zur Verwaltung der Datenqualität, das Folgendes umfasst:
- Ein zentrales Computermodul (100), das auf einer Computervorrichtung implementiert ist und ein computerimplementiertes Datenspeichermodul (203), ein computerimplementiertes Datenkommunikationsmodul (201) und ein computerimplementiertes Qualitätsbewertungsmodul (202) umfasst; und
- computerimplementierte Datenübertragungsverbindungen (105, 106) zu einem ersten und einem zweiten computerimplementierten Datenspeicher (101, 102), die auf mindestens einem Datenbankserver gespeichert sind;
wobei das zentrale Computermodul (100) so konfiguriert ist, dass es über das Kommunikationsmodul (201) einen ersten Datenpunkt, der erste erhaltene Daten und einen ersten zugewiesenen Wert umfasst, von dem ersten Datenspeicher (101) empfängt, um in dem Qualitätsbewertungsmodul (202) eine erste Qualitätsbewertung des ersten Datenpunkts zu bestimmen, um aus dem ersten Datenpunkt und/oder der ersten Qualitätsbewertung erste speicherbare Daten zu bestimmen und die ersten speicherbaren Daten in dem Speichermodul (203) zu speichern;
wobei das zentrale Computermodul (100) ferner so konfiguriert ist, dass es über das computerimplementierte Kommunikationsmodul (201) einen zweiten Datenpunkt, der zweite erhaltene Daten und einen zweiten zugewiesenen Wert umfasst, von dem zweiten Datenspeicher (102) empfängt, um in dem Qualitätsbewertungsmodul (202) eine zweite Qualitätsbewertung des zweiten Datenpunkts zu bestimmen, um zweite speicherbare Daten aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung zu bestimmen und um die zweiten speicherbaren Daten in dem Speichermodul (203) zu speichern; und
wobei die zweiten erhaltenen Daten den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind und das zentrale Computermodul (100) ferner so konfiguriert ist, dass es zweite übertragbare Daten, die aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung bestimmt werden, an den ersten Datenspeicher (101) übermittelt, wodurch der erste Datenspeicher (101) veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.

Description

  • Der Gegenstand dieser Anmeldung betrifft ein System zum Datenqualitätsmanagement. Weiterhin wird als Hintergrundinformation ein Verfahren zum Datenqualitätsmanagement sowie ein Verfahren zur Verbesserung der Datenqualität eines Datenspeichers beschrieben, wobei sich die Verfahren auf eine Vielzahl miteinander verbundener Verfahren beziehen, die ein einziges Konzept bilden. Die beschriebenen Verfahren sind nicht Teil des Schutzbegehrens.
  • Moderne Technologien ermöglichen die schnelle Identifizierung und Quantifizierung von Molekülen in organischen Gewebeproben. Beispiele für diese Technologien sind Massenspektrometrie und DNA-Sequenzierung. Der Prozess der Identifizierung und Quantifizierung wurde erheblich beschleunigt und ist immer effizienter und damit auch billiger geworden. Diese Entwicklung hat einen Punkt erreicht, an dem es sinnvoller erscheint, zuerst eine molekulare Analyse durchzuführen und dann eine Hypothese über die Kausalität zu entwickeln als andersherum. In der Regel wird zunächst eine große Menge an Daten gesammelt, und dann werden Korrelationen mit Hilfe statistischer Verfahren untersucht.
  • Biologische Systeme sind im Allgemeinen sehr komplex. Daher kann die Zahl der zu untersuchenden biologischen Proben oder die Zahl der aussagekräftigen Datenpunkte, die aus der Probe extrahiert werden können, zu gering sein, um zuverlässige Schlussfolgerungen zu ziehen. Auch die Population, aus der die Proben gezogen werden, kann begrenzt oder verzerrt sein, was sich auf die Interpretation der Datenpunkte auswirkt. Daher ist die systematische und strukturierte Sammlung von Kontextinformationen über den biologischen Organismus von entscheidender Bedeutung, um eine Interpretation der statistischen Daten vornehmen zu können.
  • Datenobjekte in der biologischen Forschung oder Diagnostik und ihre Werte, einschließlich z.B. der Einschätzungen eines Experten, sind nicht statisch, sie sind vielmehr volatil und werden ständig neu bewertet und klassifiziert. Einer der Gründe dafür ist, dass die Kausalität zwischen Parametern nur selten festgestellt werden kann, weshalb Korrelationen die Grundlage für die Bewertung und Klassifizierung bilden. Korrelationen können sich im Laufe der Zeit ändern und werden mit jedem zusätzlichen Fall, Patienten, jeder Probe oder anderen Kontextinformationen, die zur Bewertung beitragen, bestätigt. Daher findet eine Bewertung biologischer Daten häufig dort statt, wo die Daten gesammelt werden, da dort in der Regel die größte menschliche Fachkompetenz vorhanden ist. Datenmodelle und Ontologien ändern sich aufgrund des rasanten Fortschritts in den biologischen und verwandten Wissenschaften sowie in den damit verbundenen technischen Bereichen im Laufe der Zeit recht schnell. Standards - sofern vorhanden - sind oft schnell veraltet und werden vernachlässigt.
  • Aufgrund der Komplexität der Aufgabe wird die Beurteilung durch menschliche Experten oft als besser angesehen als rechnerische Vorhersagen. Dennoch können zwei verschiedene Expertengruppen zu unterschiedlichen Schlussfolgerungen kommen, auch wenn beide Parteien bei der Datenerhebung dieselben formalen Regeln befolgt haben, so dass jeder Partei Daten zur Verfügung stehen, die denselben formalen Anforderungen entsprechen. Die beiden Parteien betrachten unterschiedliche Teilstichproben aus der Gesamtpopulation und können daher zu unterschiedlichen Schlussfolgerungen kommen, die z. B. auf unterschiedliche Erfahrungen in der Vergangenheit zurückzuführen sind.
  • Der Stand der Technik, US8359297 , beschreibt den Empfang widersprüchlicher Datenwerte aus mehreren Quellen für ein Datenelement und die Verwendung einer Konfliktregel zur Bestimmung des Hauptdatenwerts für das Datenelement, der anschließend zur Verwendung gespeichert wird. Daher werden vollständige Datensätze aus vielen Quellen empfangen und ein Hauptdatenspeicher erstellt, der einen vollständigen und konsolidierten Datensatz enthält.
  • Der Stand der Technik geht nicht auf das Problem ein, dass das Eigentum an den Daten möglicherweise nicht bei einer einzigen Stelle liegt, so dass es nicht möglich ist, alle Daten an einem zentralen Datenspeicher zu speichern. Darüber hinaus können Daten der Vertraulichkeit unterliegen, was ebenfalls verhindern kann, dass sie in einem zentralen Datenspeicher gespeichert werden. Dies gilt insbesondere für Patienten- oder klinische Daten, und mehrere Datenspeicher können unabhängig voneinander arbeiten und sich z. B. nicht auf ein bestimmtes Regelwerk zur Lösung von Datenkonflikten einigen. Jeder Datenspeicher kann seine eigenen spezifischen Regeln für die Konfliktlösung haben.
  • Es ist daher ein Ziel des vorliegenden Gegenstands, ein Datenqualitätsmanagementsystem und -verfahren zusätzlich zu einem Verfahren zur automatischen Verbesserung der Datenqualität eines computerimplementierten Datenspeichers bereitzustellen. Das beanspruchte System und die beanspruchten Verfahren verbessern automatisch die Datenqualität im Gegensatz zur bloßen Bestimmung und Überwachung der Datenqualität.
  • Das Verfahren zum automatischen Datenqualitätsmanagement und das Verfahren zur automatischen Verbesserung der Datenqualität eines computerimplementierten Datenspeichers beziehen sich auf eine Vielzahl von miteinander verbundenen Verfahren zur Verbesserung der Datenqualität. Die beiden Verfahren beschreiben die beiden gegenüberliegenden Seiten einer Schnittstelle zur automatischen Datenübernahme und bilden somit ein einziges Erfindungskonzept.
  • Dies wird durch das hier beanspruchte Datenqualitätsmanagementsystem sowie das hier beanspruchte Datenqualitätsmanagementverfahren sowie das hier beanspruchte Verfahren zur automatischen Verbesserung der Datenqualität eines computerimplementierten Datenspeichers erreicht. Vorteilhafte Ausführungsformen des beanspruchten Gegenstandes sind in den abhängigen Ansprüchen weiter offenbart.
  • Das Datenqualitätsmanagementsystem nach dem vorliegenden Gegenstand umfasst ein zentrales Computermodul sowie computerimplementierte Datenübertragungsverbindungen zu einem ersten und einem zweiten computerimplementierten Datenspeicher, die auf mindestens einem Datenbankserver gespeichert sind.
  • Das zentrale Computermodul ist auf einer Computervorrichtung implementiert, die ein computergestütztes Datenspeichermodul, z. B. eine Datenbank, ein computergestütztes Datenkommunikationsmodul und ein computergestütztes Qualitätsbewertungsmodul umfasst.
  • Das zentrale Computermodul ist so konfiguriert, dass es über das Kommunikationsmodul einen ersten Datenpunkt mit einem ersten erhaltenen Datenwert und einem ersten zugewiesenen Wert aus dem ersten Datenspeicher empfängt. Darüber hinaus ist das zentrale Computermodul konfiguriert, in dem Qualitätsbewertungsmodul eine erste Qualitätsbewertung des ersten Datenpunkts zu bestimmen, um weiterhin erste speicherbare Daten zu bestimmen, die aus dem ersten Datenpunkt und/oder der bestimmten ersten Qualitätsbewertung bestimmt werden, und um die ersten speicherbaren Daten in dem Speichermodul zu speichern.
  • Das zentrale Computermodul ist ferner so konfiguriert, dass es über das Kommunikationsmodul einen zweiten Datenpunkt empfängt, der zweite gewonnene Daten, die den ersten gewonnenen Daten nach einem vordefinierten Ähnlichkeitsmaß ähnlich sind, und einen zweiten zugewiesenen Wert aus dem zweiten Datenspeicher umfasst. Darüber hinaus ist das zentrale Computermodul konfiguriert, in dem Qualitätsbewertungsmodul eine zweite Qualitätsbewertung des zweiten Datenpunktes zu bestimmen, um ferner aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung zweite speicherbare Daten zu bestimmen und die zweiten speicherbaren Daten in dem Speichermodul zu speichern.
  • Das zentrale Computermodul ist ferner so konfiguriert, dass es aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung zweite übertragbare Daten bestimmt und die zweiten übertragbaren Daten an den ersten Datenspeicher übermittelt, wodurch der erste Datenspeicher veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.
  • Bei den ersten und zweiten gewonnenen Daten kann es sich beispielsweise um gemessene und/oder experimentelle Daten handeln, um Daten, die automatisch und/oder elektronisch erfasst oder manuell eingegeben wurden. Die ersten und/oder zweiten gewonnenen Daten können sich beispielsweise auf biomedizinische Daten oder auf die Genetik beziehen. Die gewonnenen Daten sowie die zugewiesenen Werte können ferner Informationen darüber enthalten, wie die gewonnenen Daten gewonnen wurden, über die Anzahl der Proben, die zur Bestimmung des jeweiligen ersten und/oder zweiten zugewiesenen Wertes verwendet wurden, und/oder über den Grad der Sicherheit, mit dem die zugewiesenen Werte zugewiesen wurden.
  • Die ersten und/oder zweiten zugewiesenen Werte können automatisch, durch einen Algorithmus, durch einen statistischen Lernprozess oder manuell durch einen Experten, der die erhaltenen Daten auswertet, zugewiesen worden sein.
  • Die Bestimmung der ersten und/oder zweiten Qualitätsbewertung kann beispielsweise nur auf den vom ersten und/oder zweiten Datenspeicher empfangenen Metadaten beruhen, einschließlich der Metadaten darüber, auf wie vielen Stichproben bestimmter erhaltener Daten der zugewiesene Wert beruht, oder über das Verfahren, das für die Sammlung der erhaltenen Daten und/oder für die Zuweisung des zugewiesenen Wertes verwendet wurde.
  • Die ersten und die zweiten gewonnenen Daten können nach einem Ähnlichkeitsmaß, das auch als Matching bezeichnet wird, als ähnlich angesehen werden, wenn sie z. B. überlappende Daten enthalten, wenn ein Teil der ersten und/oder zweiten Daten identisch ist, wenn die ersten und zweiten gewonnenen Daten aus derselben Quelle oder Probe stammen und/oder wenn die ersten und zweiten gewonnenen Daten identisch sind.
  • Die speicherbaren ersten und/oder zweiten Daten können eine beliebige Teilmenge des ersten bzw. zweiten Datenpunkts sowie die jeweilige Qualitätsbewertung enthalten. Insbesondere können die speicherbaren Daten einen Datenpunkt-Identifikator, eine Historie der Qualitätsbewertungen der erhaltenen Daten, Informationen über das Datenmodell und über die Modelltransformation, Informationen über Metadaten in Bezug auf den Datenpunkt, einschließlich z. B. der Anzahl der Varianten im jeweiligen Datenspeicher oder der Anzahl der Aktualisierungen des zugewiesenen Wertes, und/oder eine Historie der jeweiligen Qualitätsbewertungen enthalten. Vorzugsweise enthalten die ersten und/oder zweiten speicherbaren Daten mindestens einen Datenidentifikator, einschließlich Informationen über den jeweiligen Datenspeicher.
  • Der Algorithmus, den das Qualitätsbewertungsmodul zur Bestimmung einer Qualitätsbewertung verwendet, kann ferner auf der Anzahl der Datenpunkte basieren, die bereits vom Qualitätsbewertungsmodul bewertet wurden, d. h. denen bereits eine Qualitätsbewertung zugewiesen wurde. So ist es möglich, die vom Qualitätsbewertungsmodul bereits vergebenen Qualitätsbewertungen nach Ablauf einer bestimmten Zeit oder nach Auswertung einer bestimmten Anzahl von Datenpunkten, vorzugsweise von Datenpunkten mit ähnlichen gewonnenen Daten, erneut zu bewerten und/oder zu ändern.
  • Das zentrale Computermodul kann ferner so konfiguriert sein, dass es die zweiten übertragbaren Daten, die eine Teilmenge der verfügbaren Daten enthalten können, die auf dieselbe Weise wie die speicherbaren Daten ermittelt wurden und Informationen enthalten, an den ersten Datenspeicher überträgt, wodurch der erste Datenspeicher veranlasst wird, den ersten zugeordneten Wert zu aktualisieren. Vorzugsweise wird der erste zugewiesene Wert auf einen aktualisierten ersten zugewiesenen Wert aktualisiert, der sich von dem ersten zugewiesenen Wert unterscheidet, vorzugsweise so, dass die Qualität des aktualisierten ersten zugewiesenen Wertes für die zukünftige Verarbeitung verbessert wird.
  • Die Übertragung der zweiten übertragbaren Daten an den ersten Datenspeicher, die den ersten Datenspeicher veranlasst, den ersten zugewiesenen Wert zu aktualisieren, ist besonders wichtig, wenn Daten, die sich auf einen ähnlichen Gegenstand beziehen, von mehreren verschiedenen Stellen gesammelt und ausgewertet werden, d. h. wenn den gesammelten oder gewonnenen Daten Werte zugewiesen werden, wobei möglicherweise unterschiedliche Erfassungs- und/oder Wertzuweisungsschemata verwendet werden.
  • Vorzugsweise umfassen die zweiten übertragbaren Daten mindestens die zweite Qualitätsbewertung. Die Übermittlung der zweiten Qualitätsbewertung an den ersten Datenspeicher liefert dem ersten Datenspeicher zusätzliche Informationen über die Vorzüge der übermittelten Daten.
  • Das Aktualisieren, Ändern und/oder Verbessern des zugewiesenen Wertes eines im ersten Datenspeicher gespeicherten Datenpunktes auf der Grundlage des zugewiesenen Wertes und/oder der Metadaten eines zweiten, ähnlichen Datenpunktes, der in einem zweiten Datenspeicher gespeichert ist, bietet die Möglichkeit, verbesserte, konsistentere Datensammlungen zu erstellen und gleichzeitig die Energie zu sparen, die für das Sammeln weiterer Proben durch jede einzelne Stelle erforderlich ist. Die aktualisierten und/oder verbesserten Daten können dann in praktischen Anwendungen verwendet werden, was zu verbesserten Ergebnissen führt. Beispielsweise können die aktualisierten und/oder verbesserten Daten als Input für einen automatisierten, klinischen und/oder industriellen Prozess verwendet werden.
  • Das zentrale Compuermodul kann ferner so konfiguriert sein, dass sie einen aktualisierten ersten Datenpunkt empfängt, der die ersten erhaltenen Daten und einen aktualisierten ersten zugewiesenen Wert aus dem ersten Datenspeicher umfasst. Das zentrale Computermodul kann dann so konfiguriert sein, dass es in dem Qualitätsbewertungsmodul eine aktualisierte erste Qualitätsbewertung des aktualisierten ersten Datenpunkts bestimmt, um aktualisierte erste speicherbare Daten aus dem aktualisierten ersten Datenpunkt und/oder der aktualisierten ersten Qualitätsbewertung zu bestimmen und die aktualisierten ersten speicherbaren Daten in dem Speichermodul zu speichern. Ferner kann das zentrale Computermodul so konfiguriert sein, dass es die aktualisierte erste Qualitätsbewertung über das computerimplementierte Datenkommunikationsmodul an den ersten und/oder zweiten Datenspeicher übermittelt.
  • Das System für das Datenqualitätsmanagement kann ferner ein computerimplementiertes Modelltransformationsmodul umfassen, das so konfiguriert ist, dass es Daten aus einem ersten Datenformat in ein zweites Datenformat transformiert. Insbesondere wenn der erste Datenspeicher Daten enthält, die im ersten Datenformat gespeichert sind, und der zweite Datenspeicher Daten enthält, die im zweiten Datenformat gespeichert sind, kann das zentrale Computermodul so konfiguriert sein, dass es in dem Modelltransformationsmodul die vom ersten Datenspeicher empfangenen Daten in das zweite Datenformat, die vom zweiten Datenspeicher empfangenen Daten in das erste Datenformat und/oder die vom ersten und/oder zweiten Datenspeicher empfangenen Daten in ein zentrales Datenformat transformiert.
  • Da der erste und der zweite Datenspeicher zu unterschiedlichen Stellen gehören und/oder von unterschiedlichen Stellen verwaltet werden können, können die ersten und zweiten Datenpunkte in unterschiedlichen und/oder inkompatiblen Datenformaten gespeichert sein. Daher kann die Modelltransformationseinheit einen Vergleich von Datenpunkten ermöglichen, die sich auf ähnliche erhaltene Daten beziehen, selbst wenn die Datenpunkte in unterschiedlichen Datenformaten gespeichert sind.
  • Ferner kann das System für das Datenqualitätsmanagement den ersten und/oder zweiten Datenspeicher umfassen, wobei jeder der jeweiligen Datenspeicher ein Kommunikationsmodul, das als Schnittstelle dient, ein Speichermodul und/oder ein Metadatenmodul umfassen kann.
  • Das Metadatenmodul dient der Ermittlung von Metadaten, d. h. von Daten, die die tatsächlichen Daten beschreiben, aus den im Datenspeicher gespeicherten tatsächlichen Daten. Metadaten können z. B. Informationen über die Anzahl der Proben, die Art der Datenerfassung und/oder die zeitliche Entwicklung der Daten enthalten. In Datenbeständen, die personenbezogene und/oder vertrauliche Informationen enthalten, können Metadaten dazu dienen, die Daten zu anonymisieren, bevor sie an ein anderes Datenverarbeitungsgerät weitergeleitet werden.
  • Das hier beanspruchte Verfahren zum automatischen Datenqualitätsmanagement umfasst die folgenden Schritte, die zur Ausführung auf einem Computerprozessor implementiert sind:
    • - Empfang eines ersten Datenpunkts, der erste erhaltene Daten und einen ersten zugewiesenen Wert aus einem ersten Datenspeicher umfasst,
    • - Bestimmung einer ersten Qualitätsbewertung des ersten Datenpunkts,
    • - Bestimmung erster speicherbarer Daten aus dem ersten Datenpunkt und/oder der ersten Qualitätsbewertung,
    • - Speicherung der ersten speicherbaren Daten in einem computerimplementierten zentralen Speichermodul,
    • - Empfang eines zweiten Datenpunkts, der zweite erhaltene Daten, die den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind, und einen zweiten zugewiesenen Wert aus einem zweiten Datenspeicher umfasst,
    • - Bestimmung einer zweiten Qualitätsbewertung des zweiten Datenpunkts,
    • - Bestimmung zweiter speicherbarer Daten aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung,
    • - Speicherung der zweiten speicherbaren Daten im Speichermodul und
    • - Übertragung von übertragbaren zweiten Daten, die aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung ermittelt wurden, an den ersten Datenspeicher, wodurch der erste Datenspeicher veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.
  • Der Schritt des Übertragens von übertragbaren zweiten Daten an den ersten Datenspeicher kann insbesondere dazu führen, dass der erste Datenspeicher den ersten zugewiesenen Wert aktualisiert. Vorzugsweise kann sich der aktualisierte erste zugewiesene Wert von dem ersten zugewiesenen Wert unterscheiden.
  • Die weiteren vorteilhaften und möglichen Eigenschaften der ersten, zweiten und/oder aktualisierten Datenpunkte, der gewonnenen Daten, der zugewiesenen Werte, der Qualitätsbewertungen und/oder der speicherbaren Daten, wie sie oben in Bezug auf das beanspruchte System beschrieben wurden, gelten auch für das beanspruchte Verfahren zum automatischen Datenqualitätsmanagement.
  • Das Verfahren für das automatische Datenqualitätsmanagement kann außerdem die folgenden Schritte umfassen:
    • - Empfang eines aktualisierten ersten Datenpunkts, der die ersten erhaltenen Daten und einen aktualisierten ersten zugewiesenen Wert aus dem ersten Datenspeicher umfasst,
    • - Bestimmung einer aktualisierten ersten Qualitätsbewertung des aktualisierten ersten Datenpunkts,
    • - Bestimmung aktualisierter erster speicherbarer Daten aus dem aktualisierten ersten Datenpunkt und/oder der aktualisierten ersten Qualitätsbewertung, und
    • - Speicherung der aktualisierten ersten speicherbaren Daten in dem zentralen Speichermodul.
  • Zusätzlich kann das Verfahren zum automatischen Datenqualitätsmanagement den Schritt der Übermittlung der aktualisierten ersten Qualitätsbewertung an den ersten und/oder zweiten Datenspeicher umfassen.
  • Darüber hinaus können die ersten und/oder zweiten erhaltenen Daten des Datenqualitätsmanagementsystems und/oder des Verfahrens zum automatischen Datenqualitätsmanagement vorzugsweise biologische, medizinische, genetische und/oder genomische Daten umfassen. Biologische und medizinische Daten können Informationen über das Vorhandensein, die Menge oder die Konzentration bestimmter Moleküle oder molekularer Fragmente in biologischen Proben umfassen. Medizinische Daten können auch Beschreibungen von physiologischen Merkmalen und pathologischen Informationen umfassen. Genetische und genomische Daten können Informationen über das Vorhandensein oder Nichtvorhandensein spezifischer struktureller Merkmale oder genetischer Sequenzen in genetischen Informationen aus biologischen Proben enthalten.
  • Vorzugsweise wird das gegenwärtig beanspruchte Verfahren in einem Computerprogrammprodukt für das Datenqualitätsmanagement verwendet, das auf einem computerlesbaren Medium gespeichert ist, und das, wenn es auf einem Computer ausgeführt wird, so konfiguriert ist, dass es das Verfahren für das Datenqualitätsmanagement wie oben beschrieben ausführt.
  • Das hier beanspruchte Verfahren zur automatischen Verbesserung der Datenqualität eines computerimplementierten Datenspeichers umfasst die folgenden Schritte:
    • - Übermittlung eines ersten Datenpunkts, der erste erhaltene Daten und einen ersten zugewiesenen Wert umfasst, an ein zentrales Computermodul
    • - Empfang von Informationen über einen zweiten Datenpunkt, der zweite erhaltene Daten, die den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind, und einen zweiten zugewiesenen Wert vom zentralen Computermodul umfasst
    • - Neubewertung des ersten zugewiesenen Wertes auf der Grundlage der empfangenen Informationen über den zweiten Datenpunkt.
  • Die Neubewertung des ersten zugewiesenen Wertes kann die automatische Aktualisierung, Änderung und/oder Verbesserung des ersten zugewiesenen Wertes umfassen.
  • Das Verfahren zur Verbesserung der Datenqualität des computerimplementierten Datenspeichers kann ferner den Schritt der Bestimmung einer Qualitätsbewertung eines Datenpunkts umfassen, der im Datenspeicher gespeichert ist oder von einer zentralen Computervorrichtung oder einem anderen Datenspeicher empfangen wurde.
  • Die Ermittlung der Qualitätsbewertung kann auch innerhalb eines datenspeicherspezifischen Qualitätsbewertungsmoduls erfolgen, unabhängig von einer durch das zentrale Kommunikationsmodul ermittelten Qualitätsbewertung. Dies kann von Vorteil sein, wenn der Datenspeicher einen anderen Qualitätsstandard als das zentrale Computermodul anwenden will oder wenn die im Datenspeicher gespeicherten Daten sowie die aus den Daten gewonnenen Metadaten vertraulich sind.
  • Die weiteren vorteilhaften und möglichen Eigenschaften der ersten, zweiten und/oder aktualisierten Datenpunkte, der gewonnenen Daten, der zugewiesenen Werte, der Qualitätsbewertungen und/oder der speicherbaren Daten, wie sie oben in Bezug auf das beanspruchte System beschrieben wurden, gelten auch für das beanspruchte Verfahren zum automatischen Datenqualitätsmanagement.
  • Das beanspruchte Datenqualitätsmanagementsystem kann ferner mindestens eine erste und/oder eine zweite computerimplementierte Datenspeicherschnittstelle umfassen, die so konfiguriert ist, dass sie auf einem Datenbankserver ausgeführt werden kann. Die erste und/oder zweite Schnittstelle des Datenspeichers kann gemäß dem oben beschriebenen Verfahren zur Verbesserung der Datenqualität des computerimplementierten Datenspeichers konfiguriert werden.
  • Beispielhafte Ausführungsformen des beanspruchten Gegenstands werden im Folgenden unter Bezugnahme auf die folgenden Abbildungen beschrieben, wobei
    • 1 eine schematische Darstellung eines Netzes zeigt, das aus einem zentralen Computermodul, mehreren Datenspeichern und einem Leseterminal besteht,
    • 2 die Teilkomponenten des zentralen Computermoduls und des Datenspeichers zeigt,
    • 3 ein Flussdiagramm zeigt, das die Schritte angibt, die ausgeführt werden, wenn das zentrale Modul Daten aus einem Repository empfängt,
    • 4 ein Flussdiagramm zeigt, das einen vom Datenspeicher durchgeführten Datenüberprüfungsprozess darstellt,
    • 5 ein Flussdiagramm zeigt, das die verschiedenen Schritte für eine verteilte Berechnung von Qualitätsbewertungen anzeigt, und
    • 6 ein Flussdiagramm für die Vermittlung von Konfliktlösungen zeigt.
  • 1 zeigt eine schematische Ansicht eines Systems für das Datenqualitätsmanagement gemäß einer beispielhaften Ausführungsform, das ein zentrales Computermodul 100 umfasst, die auch als zentrale Hub-Komponente oder Hub bezeichnet wird und Schnittstellen und Datenübertragungsverbindungen 105, 106, 107 zu Einheiten bereitstellt, von denen jede einen biologischen Referenzdatenspeicher 101, 102, 103 umfasst. Im Folgenden wird die Gesamtheit der zentralen Hub-Komponente 100 und der mit ihr verbundenen Datenspeicher 101, 102, 103 als „Netzwerk“ bezeichnet. Die Datenmodelle und Ontologien der Datenarchive 101, 102, 103 können sich voneinander unterscheiden.
  • In einer anderen Ausführungsform des beanspruchten Gegenstands, die ebenfalls in 1 dargestellt ist, kann das zentrale Computermodul 100 nicht nur Schnittstellen zu den Datenbeständen 101, 102, 103 unterhalten, sondern auch eine Datenübertragungsverbindung 108 zu mindestens einem Lesegerät 104, das Daten von dem zentralen Computermodul 100 abruft und selbst nicht aus großen Datenbeständen besteht.
  • In einer vorteilhaften Ausführungsform des beanspruchten Gegenstands, wie sie in 2 dargestellt ist, besteht die zentrale Hub-Komponente 100 aus Unterkomponenten wie einem Kommunikationsmodul 201, das die Kommunikation mit den Datenspeichern 101, 102, 103 und den Leserterminals 104 durchführt, einem Qualitätsbewertungsmodul 202, das die Berechnung von Qualitätsbewertungen durchführt, einem Speichermodul 203, das dazu dient, Daten wie Qualitätsbewertungen in einem nicht flüchtigen Speicher abzulegen, und einem Modelltransformationsmodul 204.
  • Wie ebenfalls in 2 dargestellt, bestehen die Datenrepositorien 101 aus einem Speichermodul 206, in dem die biologischen Referenzdaten gespeichert werden, einem Metadatenmodul 205, das aus den Daten im Speichermodul 206 Metadaten berechnet, einem Kommunikationsmodul 207, das als Schnittstelle für den Datenaustausch dient, und einem Datenmanagementmodul 208.
  • Gemäß einer Ausführungsform sind die Datenspeicher 101, 102, 103 und die zentrale Hub-Komponente 100 über TCP/IP verbunden, ihre APIs sind über HTTP-Endpunkte zugänglich, und sie können zusätzliche spezielle Schnittstellen für die Nachrichtenübermittlung anbieten (z. B. AMPQ, das Advanced Message Queuing Protocol). Sowohl der Datenspeicher 101, 102, 103 als auch der Hub 100 können eine Kommunikation einleiten. Die Kommunikation zwischen den Komponenten wird über SSL verschlüsselt (d. h. es werden HTTPS und AMPQ+SSL verwendet). Zusätzliche Netzwerksicherheitsmaßnahmen können in der Einrichtung virtueller privater Netzwerke (VPNs) für bestimmte Datenspeicher 101, 102, 103 bestehen, um eine zusätzliche Sicherheitsebene zu schaffen. Das Speichermodul 206 kann aus einer oder mehreren relationalen Datenbanken (RDBMS, unter Verwendung von SQL) oder NoSQL-Datenbanken bestehen, die aus Dokumenten-, Graphen- oder Schlüssel-Werte-Datenstrukturen bestehen.
  • Während die grundlegende Integrität der übertragenen Daten durch die unteren Schichten im Netzwerkstapel (z. B. über IP-Prüfsummen) sichergestellt wird, können sowohl der zentrale Knotenpunkt 100 als auch die Datenspeicher 101, 102, 103 kontinuierliche Überwachungs- und Validierungsdienste („Watchdogs“) ausführen, um Inkonsistenzen und die Dienstqualität (z. B. die rechtzeitige Weitergabe aktualisierter Informationen) zur Laufzeit zu überprüfen.
  • Wie in 3 dargestellt, überträgt ein Datenspeicher „A“ 101 den Datenpunkt „1“, der aus einem Datenobjektidentifikator, einem Datenattribut, z. B. Messdaten oder experimentellen Daten, und einem oder mehreren Metadaten-attributen, z. B. der Anzahl der Proben, besteht, an den Hub 100. Der Hub 100 stellt 302 fest, dass es keine übereinstimmenden Datenobjekte im Netzwerk gibt, berechnet 304 Qualitätsbewertungen von Datenpunkt „1“ und überträgt 305 zumindest einige der Daten in seinen eigenen Speicher 203. Sobald dieser Prozess mindestens einmal durchgeführt wurde, vergleicht der Hub 100 die übertragenen Daten immer mit den Daten in seinem Speicher 203, um festzustellen, ob es weitere übereinstimmende, d. h. ähnliche Datenobjekte im Netzwerk gibt.
  • Empfängt der Hub 100 nun einen Datenpunkt „2“, der dem Datenpunkt „1“ ähnlich ist, da die beiden Datenpunkte einige identische Informationen enthalten, von einem Datenspeicher „B“ 102, so stellt der Hub 302 fest, dass es einen übereinstimmenden Datenpunkt „1“ gibt, und ruft 303 diesen Datenpunkt und/oder seine Qualitätsbewertungen entweder aus dem eigenen Speicher 203 des Hubs 100 ab, oder aus dem Speicher 206 des jeweiligen Datenspeichers „A“ 101 ab, berechnet 304 die Qualitätswerte der übertragenen Daten, speichert 305 einen Teil der übertragenen und/oder berechneten Daten im Speicher 203 des Hubs 100 und überträgt 306 die Datenobjektkennung und die Qualitätswerte an einen oder mehrere Datenspeicher 101, 102, 103. In einer günstigen Ausführungsform werden die Daten an alle Datenspeicher 101, 102, 103 übertragen, die ein übereinstimmendes, d.h. ähnliches Datenobjekt enthalten. Die Datenspeicher 101, 102, 103, die übereinstimmende Datenobjekte enthalten, verwenden dann die empfangenen Daten, um ihre eigenen Daten neu zu bewerten, was den Datenspeicher „A“ veranlasst, einige der Werte, die mit dem Datenpunkt „1“ verbunden sind, zu aktualisieren und zu ändern. Der Datenspeicher „A“ sendet dann den aktualisierten Datenpunkt „1“ erneut an den Hub 100, was den Hub 100 veranlasst, die Qualitätsbewertung des aktualisierten Datenpunkts „1“ neu zu berechnen.
  • Die verschiedenen Komponenten des Netzwerks, wie in 1 dargestellt und oben beschrieben, können als Computerprogrammprodukt für das Datenqualitätsmanagement implementiert werden, das auf mindestens einem computerimplementierten Medium wie z. B. einer Festplatte, einer CD-ROM, einer DVD oder einer anderen Art von nicht flüchtigem computerlesbarem Speicher gespeichert werden kann. Das Computerprogrammprodukt ist dann so konfiguriert und implementiert, dass es, wenn es auf mindestens einem Computer ausgeführt wird, die oben im Zusammenhang mit dem Netzwerk beschriebenen Änderungen bewirkt.
  • In einer vorteilhaften Ausführungsform speichert der Hub 100 Informationen darüber, wie Datenobjekte im Laufe der Zeit von den Datenspeichern 101, 102, 103 neu bewertet, aktualisiert und/oder geändert wurden. Diese Informationen können auch zur Berechnung von Qualitätsbewertungen, wie unten beschrieben, verwendet werden. In einer Ausführungsform können die Datenbestände 101, 102, 103 die Übertragung von Daten an den Hub 100 initiieren, in einer anderen Ausführungsform kann die Übertragung vom Hub 100 initiiert werden, z. B. um festzustellen, ob Daten in den Datenbeständen 101, 102, 103 geändert oder aktualisiert wurden.
  • Dies kann anhand eines Beispiels von Datenspeichern 101, 102, 103 veranschaulicht werden, die Informationen über Varianten der menschlichen DNA enthalten. Varianten können eindeutig beschrieben werden durch a) die Koordinate im menschlichen Genom, an der die Veränderung beobachtet wird, und b) die beobachtete Veränderung im Vergleich zum Referenzgenom. Eine Variante kann als „g.43076586dupT“ beschrieben werden, was bedeutet, dass an Position 43076586 im Genom der Buchstabe „T“ verdoppelt wurde. Auf diese Weise können Varianten über mehrere verschiedene Datenspeicher hinweg identifiziert werden.
  • Im Speichermodul des zentralen Computermoduls können die gespeicherten Daten im Falle dieses Beispiels die Beschreibung von Varianten (z. B. g124566992C>T) und welcher Datenspeicher Informationen darüber enthält, die Klassifizierung der Variante (gutartig, wahrscheinlich gutartig, unbekannte Bedeutung, wahrscheinlich pathogen, pathogen), alle berechneten Qualitätsbewertungen für verschiedene Objekte wie Varianten, Einreicher und/oder Datenspeicher, Gewichtungsfaktoren, eine Historie der Qualitätsbewertungen pro Variante/pro Gen/pro Datenspeicher und/oder andere Daten, Parameter für die Vorhersagekraft von Metadaten, Historien dieser Parameter, während der Berechnung der Qualitätsbewertung erzeugte Metadaten, einschließlich der Anzahl der Varianten pro Datenspeicher und/oder der Anzahl der Aktualisierungen im Laufe der Zeit pro Datenspeicher usw. (um den aktivsten Datenspeicher zu ermitteln) und/oder Informationen über die Anzahl der Varianten pro Datenspeicher (um den aktivsten Datenspeicher zu ermitteln) und/oder Informationen über Datenmodelle in Datenspeichern und über Modelltransformationen.
  • Das Labor, das den Datenspeicher „A“ nutzt, untersucht einen neuen Fall und entdeckt dabei eine neue Variante in der DNA-Sequenz dieser Person. Die Daten zu dieser Variante enthalten ein Datenattribut über ihre Wirkung, z. B. dass diese Variante „pathogen“ ist. Repository „A“ nimmt die Daten in seinen Speicher auf. Diese Daten werden vom Labor bei späteren Analysen als interne Referenzdatenbank wiederverwendet.
  • Der Datenspeicher „A“ übermittelt auch den Identifikator der Variante, eine eindeutige Beschreibung auf der Grundlage genomischer Koordinaten („g.43076586dupT“), das Datenattribut („pathogen“) und Metadaten über die Variante und damit zusammenhängende Informationen an die zentrale Hub-Komponente. Die Metadaten können z. B. Informationen über die Anzahl der Probanden enthalten, mit denen eine Analyse durchgeführt wurde.
  • Im Falle von Datenspeichern 101, 102, 103, die Informationen über das menschliche Genom enthalten, könnte Ähnlichkeit bedeuten, dass eine Ähnlichkeit in einer Koordinate (Position) besteht, d. h. dieselbe oder eine ähnliche Region betrifft und/oder eine Ähnlichkeit in der spezifischen Sequenzänderung in einer ähnlichen Region besteht, d. h. zu derselben oder einer ähnlichen Proteinänderung führt, eine ähnlich große Deletion beschreibt und/oder eine ähnliche Wirkung in einer bestimmten Koordinatenregion erzeugt. Im Allgemeinen können biologische, medizinische, genetische und/oder genomische Daten als ähnlich angesehen werden, wenn sie eine ähnliche Veränderung in einem Organismus hervorrufen oder verursachen.
  • Handelt es sich bei den in den Datenspeichern gespeicherten Objekten um Biomarker und/oder Biomoleküle, könnte Ähnlichkeit als Ähnlichkeit der Molekularstruktur definiert werden. An einem bestimmten Punkt könnte man zwei verschiedene Fragmente A und B eines größeren Proteins AB, die mittels Massenspektrometrie gemessen werden, als Beweis für die Existenz des einen Proteins AB definieren. Die Konzentrationen der Fragmente A und B können daher bei der Bestimmung eines bestimmten Zustands des menschlichen Organismus als gleichwertig angesehen werden. Moleküle können in verschiedenen Datenbanken einfach unterschiedlich benannt werden.
  • Das zentrale Computermodul 100 empfängt die Daten und vergleicht sie mit den in ihrem Speicher 203 enthaltenen Daten. Diesmal findet das zentrale Computermodul 100 übereinstimmende, d. h. ähnliche Varianten in ihrem Speicher 203, ruft die zugehörigen Daten ab, berechnet eine oder mehrere Qualitätsbewertungen aus den Daten, die sie von Datenspeicher „A“ erhalten hat, und übermittelt die Qualitätsbewertungen einschließlich der Bewertungen aus den Daten anderer Datenspeicher und der zugehörigen Datenattribute und Metadaten zurück an alle Datenspeicher, in denen diese Variante gespeichert ist. Die Datenspeicher „B“ und „D“ bewerten diese Variante als „gutartig“. Datenspeicher A zeigt dann die Attribute mit der höchsten Qualitätsbewertung an, z. B. aus Datenspeicher „B“, sowie zusätzliche Metadaten aus „B“ (z. B. Anzahl der Fälle, Arten von Analysen, andere unterstützende Belege). Wenn die Qualitätsbewertungen darauf hindeuten, dass die Daten von „B“ gültig sind, startet Datenspeicher „A“ eine oder mehrere der folgenden Aktionen: Neubewertung 404 seiner Bewertung dieser Variante, Kennzeichnung 403 der gemeldeten Fälle im Zusammenhang mit dieser Variante (d. h. dies zeigt an, dass eine Überprüfung erforderlich ist, bevor das Ergebnis in der medizinischen Diagnostik verwendet werden kann), Versendung von E-Mail-Benachrichtigungen an Labornutzer und Start des halbautomatischen Konfliktlösungsworkflows.
  • In einer anderen Ausführungsform verändert die zentrale Hub-Komponente 100 die Daten in den Datenspeichern 101, 102, 103 nicht oder veranlasst sie nicht, sondern speichert Metadaten zu Referenzdatenobjekten zentral in einem nicht flüchtigen Speicher, wie z. B. Informationen über die endgültige Bewertung nach der Konfliktlösung.
  • In einer anderen Ausführungsform des beanspruchten Gegenstands wird der Neubewertungsprozess in dem zentrale Computermodul 100, auch als zentrale Hub-Komponente 100 bezeichnet, auf der Grundlage der Metadaten durchgeführt. Jeder einzelne Schritt der automatischen oder halbautomatischen Neubewertung wird dokumentiert und in der zentralen Hub-Komponente 100 gespeichert. Zu jedem Zeitpunkt kann dieser Prozess daher auditiert, überprüft oder erneut durchgeführt werden.
  • Die Daten-Hub-Komponente 100 kann Informationen aus allen Datenbeständen 101, 102, 103 zusammenfassen. Dies kann in Form einer Suchanfrage geschehen, die von einem der Datenbestände 101, 102, 103 oder einem Lesegerät 104 an die Hub-Komponente 100 übermittelt wird. Der Hub 100 leitet dann die Anfrage an die Datenbestände 101, 102, 103 weiter. Die Hub-Komponente 100 ist dann in der Lage, die Suchergebnisse zu empfangen und sie an die Einrichtung, die die Anfrage gestellt hat, zurückzugeben.
  • In einer anderen Ausführungsform führt die zentrale Hub-Komponente 100 eine kontinuierliche Datenpflege durch. Sie integriert und konsolidiert kontinuierlich neue Informationen, was angesichts der Größe der Datenbestände 101, 102, 103 manuell nicht möglich wäre. Die Informationen werden an einen oder mehrere Datenbestände 101, 102, 103 weitergeleitet, die durch eine Konfiguration des zentralen Computermoduls 100 bestimmt werden können.
  • In einer anderen Ausführungsform werden Anreize für die teilnehmenden Parteien (die Organisationen, die Datenrepositorien unterhalten, Kuratoren, die Daten in Repositorien einreichen usw.) geschaffen. Die erfolgreiche Teilnahme an der Konfliktlösung verbessert die persönliche, organisations- und/oder datenbankbezogene Qualitätsbewertung. Die Qualitätsbewertung wird im Netzwerk veröffentlicht, vorzugsweise in Form eines „Abzeichen“-Systems, das den Grad der Leistung darstellt. Auf diese Weise wird für die Teilnehmer ein Anreiz geschaffen, die Qualität der Daten im gesamten Netzwerk zu verbessern. In einer anderen Ausführungsform werden die Leistungsstufen Dritten zugänglich gemacht, so dass sie zum Aufbau einer Expertenreputation verwendet werden können.
  • 4 zeigt den Überprüfungsprozess gemäß einer beispielhaften Ausführungsform, der von dem Datenspeicher nach dem Empfang von 401 Daten vom Hub 100 durchgeführt wird. Der Datenspeicher bestimmt zunächst 402, ob ein Konflikt zwischen den im Datenspeicher und im Hub gespeicherten Daten besteht. In diesem Fall werden die Daten mit einer Markierung 403 versehen und ein Datenüberprüfungsprozess 404 wird ausgelöst. Anschließend wird festgestellt 406, ob die Bewertung durch den Überprüfungsprozess geändert wurde; in diesem Fall werden die aktualisierten Daten 406 an den Hub 100 übermittelt.
  • In einer anderen Ausführungsform umfasst das System einen Datenspeicher, der biologische Referenzdaten enthält. Der Datenspeicher verfügt über eine Schnittstelle zu einer zentralen Hub-Komponente. Der Datenspeicher ist in der Lage, Daten anzuzeigen, die sowohl lokal als auch in der zentralen Hub-Komponente 100 gespeichert sind. Dies ist z. B. wichtig, wenn sich die Attribute der Datenobjekte in der lokalen Version von der Version im zentralen Knotenpunkt unterscheiden. Im Falle menschlicher DNA-Varianten könnte dies die Klassifizierung einer DNA-Variante sein, die lokal als „gutartig“, aber von der zentralen Hub-Komponente 100 als „pathologisch“ eingestuft wird.
  • In einer anderen Ausführungsform kann der lokale Datenspeicher 101, 102, 103 so konfiguriert sein, dass er Datenattribute mit vom Hub 100 empfangenen Daten überschreibt, wenn eine oder mehrere Qualitätsbewertungen der Datenattribute vom Hub 100 höher sind als die lokale Bewertung. In einer anderen Ausführungsform unterstützt das lokale Repository 101, 102, 103 die Dateneingabe und -kuratierung als unabhängigen Prozess, der Änderungen unterliegt und formal dokumentiert werden muss. Die Betreiber der Datenspeicher 101, 102, 103 können unterschiedliche Anforderungen an die Details und die Dokumentation dieser Prozesse haben. Durch die Trennung der Prozessdefinition von der Implementierung der Software werden sowohl Änderungen der Prozesse als auch Änderungen/Aktualisierungen der Software entkoppelt und können unabhängig voneinander durchgeführt werden.
  • In einer anderen Ausführungsform stellt das lokale Repository 101, 102, 103 Module bereit, die einen oder mehrere Schritte eines Arbeitsablaufs umfassen, die zum Aufbau eines gesamten Arbeitsablaufs für die Dateneingabe und -überprüfung verwendet werden können. Eine weitere Qualitätsbewertung kann von der Struktur dieser Arbeitsabläufe abgeleitet werden: Eine Einrichtung, die einen Arbeitsablauf mit bestimmten Schritten einsetzt, erhält eine höhere Bewertung als eine Einrichtung, die einen Arbeitsablauf mit nur einer Teilmenge von Schritten einsetzt. In ähnlicher Weise kann eine Qualitätsbewertung auf ein Datenobjekt bezogen werden, das nach einem bestimmten Arbeitsablauf erstellt wurde.
  • In einer anderen Ausführungsform vermittelt der lokale Datenspeicher 101, 102, 103 Überprüfungen und Neubewertungen von Datenobjekten durch einen Arbeitsablauf, der die Anzeige einer Liste widersprüchlicher Daten, die Anzeige von Datenattributen, die von der zentralen Hub-Komponente 100 empfangen wurden, und die Bereitstellung von Mitteln zur Eingabe zusätzlicher Informationen und zum Senden zusätzlicher Informationen an die zentrale Hub-Komponente 100 umfasst.
  • In einer anderen Ausführungsform de-identifiziert der lokale Datenspeicher 101, 102, 103 alle Daten, die an die zentrale Hub-Komponente 100 übermittelt werden.
  • In einer anderen Ausführungsform zeigt der lokale Datenspeicher 101, 102, 103 Informationen an, die von der zentralen Hub-Komponente 100 während der Dateneingabe empfangen wurden, bevor die Daten in den lokalen Datenspeicher 206 übertragen werden. Vorzugsweise beziehen sich die angezeigten Informationen auf mögliche Konflikte mit Datenobjekten, die bei der zentralen Hub-Komponente 100 registriert sind.
  • In einer anderen Ausführungsform werden zusätzliche Datenspeicher 101, 102, 103 bereitgestellt, um öffentlich verfügbare Datensätze zu repräsentieren. Diese speziellen Datenbestände 101, 102, 103 können regelmäßig aktualisiert werden, indem die Daten über den oben beschriebenen Daten- und Modelltransformationsansatz verwendet werden. Auf diese Weise können die Nutzer die Referenzdaten, mit denen sie möglicherweise nicht einverstanden sind, in derselben Nomenklatur (und Benutzeroberfläche) wie andere Daten des Systems betrachten.
  • Daten, die durch den Überprüfungsprozess aktualisiert und verbessert wurden, können als Input für automatisierte Anwendungen, klinische Anwendungen und/oder industrielle Prozesse verwendet werden und können somit zur Verbesserung anderer Prozesse und/oder zur Steigerung der Kosten-, Zeit- und/oder Energieeffizienz anderer Prozesse genutzt werden.
  • In einer anderen Ausführungsform, wie in 5 gezeigt, kann jeder Datenspeicher 101, 102, 103 auch seine eigenen Qualitätsbewertungen berechnen und verteilen, die auf den Qualitätsbewertungen des Hubs 100 und der anderen Datenspeicher 101, 102, 103 sowie auf Daten beruhen können, die ansonsten aus ethischen oder rechtlichen Gründen nicht verwendet werden könnten (da dies bedeuten würde, dass die Daten an den Hub gesendet werden). Die Datenspeicher 101, 102, 103 können den Qualitätsbewertungen, die vom Hub und von anderen Datenspeichern stammen, einen Gewichtungsfaktor zuweisen und so ein „Vertrauensnetz“ schaffen.
  • 5 zeigt einen beispielhaften Arbeitsablauf für die Verwaltung der verteilten Berechnung von (privaten) Qualitätsbewertungen, wie sie vom Hub 100 gesteuert wird. Die Datenspeicher 101, 102, 103 können ihre privaten Qualitätswerte definieren, indem sie sich auf die privaten Werte anderer Datenspeicher 101, 102, 103 stützen, wodurch sie implizit Änderungen der Qualitätswerte in diesen Datenspeicher 101, 102, 103 abonnieren. Ein Datenspeicher 101, 102, 103 meldet dann 501 eine neu berechnete private Bewertung an den Hub 100. Der Hub 100 ermittelt 502, ob die öffentliche Bewertung von der Änderung betroffen ist, und berechnet in diesem Fall 503 die öffentliche Bewertung neu. Dann verteilt der Hub 100 504 die aktuellen Bewertungen an alle abonnierenden Datenspeicher und veranlasst diese, ihre privaten Bewertungen neu zu berechnen, die dann 505 vom Hub 100 empfangen werden. Da dies zu zyklischen Abhängigkeiten zwischen privaten Qualitätsbewertungen führen kann, wird die Neuberechnung iterativ durchgeführt. Die Abbruchbedingung 506 für die iterative Berechnung könnte z. B. nur eine bestimmte Anzahl iterativer Neuberechnungen zulassen oder die Neuberechnung stoppen, wenn die Unterschiede nach der Neuberechnung vernachlässigbar sind. Können widersprüchliche Bewertungen durch eine solche iterative Neuberechnung 507 nicht aufgelöst werden, wird eine manuelle, halbautomatische oder automatische Konfliktlösung ausgelöst, und die Konflikte werden 508 an die Datenspeicher 101, 102, 103 gemeldet. Der Hub 100 kann eine verteilte Neuberechnung der Qualitätsbewertung auslösen, indem er die Datenspeicher 101, 102, 103 abfragt, z. B. wenn neue Informationen über einen Satz übereinstimmender Datenobjekte verfügbar sind.
  • In einer anderen Ausführungsform, wie in 6 gezeigt, kann der Neubewertungsprozess durch die Hub-Komponente 100 vermittelt werden. Der Hub 100 initialisiert einen spezifischen Arbeitsablauf für die Neubewertung von Daten. Ein solcher Arbeitsablauf kann Folgendes umfassen:
    • - Empfang einer Neubewertungsanforderung 601 von einem Datenspeicher 101, 102, 103 oder einem Leserterminal 104. Alternativ kann die zentrale Hub-Komponente 100 selbst eine Neubewertungsanforderung stellen, wenn sie einen Datenkonflikt feststellt.
    • - Empfang von Antworten 602 aus den Datenbeständen 101, 102, 103,
    • - Senden einer Anfrage zur Überprüfung 603 eines bestimmten Datenobjekts an alle betroffenen Datenspeicher 101, 102, 103,
    • - Vermittlung einer halbautomatischen Konfliktlösung durch Weiterleitung von Nachrichten 604 zwischen den Datenspeichern 101, 102, 103, wobei solche Nachrichten möglicherweise zusätzliche Daten enthalten, die ein bestimmtes Datenattribut unterstützen oder ihm widersprechen,
    • - Konsolidierung und Speicherung 605 einer abschließenden Bewertung des Datenobjektattributs.
  • Während der oben beschriebene Arbeitsablauf auf kleinere Datenbestände 101, 102, 103 mit sich langsam ändernden Inhalten anwendbar sein kann, bietet der beanspruchte Gegenstand schnellere und stärker automatisierte Arbeitsabläufe für große und sich schnell ändernde Datenbestände. In einer Ausführungsform berechnet die Hub-Komponente 100 eine Qualitätsbewertung für das Datenobjekt anhand der Metadaten, die zusammen mit dem Datenobjekt in dem Datenspeicher gespeichert sind. Der Hub 100 vergleicht dann die Qualitätsbewertungen der Datenobjekte aus verschiedenen Datenbeständen und wählt automatisch das Attribut des Datenobjekts mit dem höchsten Rang als endgültige Bewertung aus.
  • In den folgenden Beispielen sei c1, ..., cn alle klinischen Fälle eines Datenspeichers 101, 102, 103 sein, die mit einer bestimmten Variante verbunden sind, und jeder Fall ci bestehe aus k Metadaten-Attributen: ci = (di 1, ..., di k).
  • Als Metadaten gelten u. a. folgende Informationen: experimentelle Daten oder Nachweise, die die Klassifizierung des Datenobjekts unterstützen, Informationen über Proben, Probanden, experimentelle oder klinische Vorgeschichte der Probanden. In einer vereinfachten Ausführungsform ist die Qualitätsbewertung q eine lineare Funktion der Anzahl der Metadatenobjekte, die sich auf das betreffende Datenobjekt beziehen, z. B. q = a n + b
    Figure DE202016009111U1_0001
  • Aufwändigere Qualitätsbewertungen können eine gewichtete Funktion verwandter Metadaten verwenden, wobei die Gewichtung wj der Metadaten von ihrem Typ abhängt: q = i = 1 n q i ,  mit q i = j = 1 k   w j d i j
    Figure DE202016009111U1_0002
  • Metadaten, die stark zur Qualitätsbewertung beitragen, können z. B. experimentell gemessene Daten (= quantitative Daten) sein. Qualitative Daten hingegen können als weniger wichtig für die Qualitätsbewertung angesehen werden. Eine Qualitätsbewertung kann auch durch die Konsistenz der Metadaten bestimmt werden, die sich auf ein bestimmtes Datenobjekt beziehen. Inkonsistente Metadaten führen daher zu einer niedrigeren Qualitätsbewertung und vice versa.
  • In einer anderen Ausführungsform wird die statistische Verteilung der Klassifizierungen von Datenobjekten - wenn mehrere dieser Klassifizierungen im zentralen Hub 100 vorhanden sind - durch das Netzwerk dem Datenspeicher ermittelt. Die zentrale Hub-Komponente 100 bestimmt, z. B. durch Berechnung, den Mittelwert oder den Median oder einen anderen aussagekräftigen Parameter der Verteilung und verwendet das Ergebnis zur Bestimmung der endgültigen Bewertung, um den Klassifizierungskonflikt aufzulösen. In einer weiteren Ausbaustufe wird eine Gewichtung der Werte in der statistischen Verteilung nach einer Punktzahl vorgenommen W die dem spezifischen Datenspeicher 101, 102, 103 oder dem spezifischen menschlichen oder automatischen Kurator, der die Daten an den Datenspeicher übermittelt hat, zugeschrieben wird, z. B.: q = W i = 1 n q i ,
    Figure DE202016009111U1_0003
    wobei qi wie oben definiert.
  • In einer anderen Ausführungsform wird die Qualitätsbewertung anhand der Eigenschaften des Datenspeichers oder der Eigenschaften bestimmter Teile des Speichers oder der Organisation, die den Speicher verwaltet, ermittelt. Größere Datenspeicher oder Datenspeicher mit einer hohen Datenerzeugungsrate können insgesamt eine höhere Punktzahl erhalten. Qualitätsbewertungen können auch von den Eigenschaften bestimmter Teilbereiche eines Datenspeichers abgeleitet werden. Ein bestimmter Datenspeicher kann z. B. viele Datensätze zu einem bestimmten Gen enthalten, so dass dieser spezifische Datenspeicher als Expertenwissen in diesem Bereich eingestuft werden kann. Beim Vergleich eines Datenobjekts aus diesem Teilbereich mit einem entsprechenden Datenobjekt aus einem anderen Datenspeicher kann dem Datenspeicher mit der größeren Anzahl von Datensätzen ein höherer Qualitätswert zugeschrieben werden, so dass Klassifikationen und Datenattribute aus diesem Datenspeicher gegenüber anderen Datenspeicher bevorzugt werden können. Anstelle der Anzahl der Datensätze können auch andere Parameter p1, ..., pl verwendet werden, wie z. B. die Anzahl der Probanden, die in einer Subdomäne untersucht wurden, oder die Anzahl der biologischen Objekte (z. B. DNA-Varianten), die in einer Subdomäne gefunden wurden, z. B. q = W ( p 1 , , p l ) i = 1 n q i ,
    Figure DE202016009111U1_0004
    wobei qi wie oben definiert.
  • In einer anderen Ausführungsform werden die in der Qualitätsbewertungsmethode verwendeten Faktoren adaptiv neu gewichtet, indem die Vorhersagekraft jeder Art von Metadaten zu bestimmten Datenobjekten und ihre Veränderung im Laufe der Zeit überwacht wird. Auf diese Weise kann auch die Qualitätsbewertungsmethode selbst kontinuierlich verbessert werden, z. B. um die abnehmende (oder zunehmende) Wirkung der Laborreputation oder der Anzahl ähnlicher Datenobjekte in einem bestimmten Datenspeicher als Maß für dessen Vertrauenswürdigkeit zu ermitteln.
  • In einer anderen Ausführungsform wird die Historie der Neubewertungen, an denen eine bestimmte Einrichtung (Datenspeicher/Organisation/Kurator) beteiligt war, zur Berechnung einer Qualitätsbewertung herangezogen. Eine Einrichtung, deren Datenbewertungen sich in der Vergangenheit bei Neubewertungen durchgesetzt haben, wird gegenüber anderen Einrichtungen bevorzugt.
  • In einer anderen Ausführungsform kann die Hub-Komponente 100 Modelltransformationen zwischen den Datenmodellen aus den Datenspeichern 101, 102, 103 durchführen, so dass sie in der Lage ist, die Datenmodelle der Datenspeicher sowie deren Ontologien aufeinander abzubilden. Als Beispiel kann dies angewandt werden z. B. zur Kartierung von DNA-Varianten des menschlichen Genoms. Die Nomenklatur zur Beschreibung von Varianten im menschlichen Genom ist nicht bijektiv. Das bedeutet, dass eine bestimmte Variante mit zwei verschiedenen Begriffen gültig beschrieben werden kann. Die Hub-Komponente kann eine strengere, eindeutige Nomenklatur anwenden und eine entsprechende Transformation auf alle Datenobjekte aus Datenbeständen anwenden. Ein weiteres Beispiel für eine Ontologiezuordnung ist die Zuordnung verschiedener DNA-Variantenklassifikationen. Jeder Datenspeicher kann sein eigenes Klassifizierungsschema für die Bewertung von Varianten im menschlichen Genom definieren, das von den Empfehlungen, z. B. des American College of Medical Genetics and Genomics, abweichen kann. Um DNA-Varianten aus verschiedenen Datenspeichern korrekt vergleichen und zuordnen zu können, wendet die Hub-Komponente Transformationen auf die Klassifizierungsschemata der Datenspeicher in ihre eigene Klassifizierungsontologie an.
  • Da Datenmodelle und Ontologien einem ständigen Wandel unterworfen sind, ermöglicht die Hub-Komponente Änderungen der Datenmodell- und Ontologie-Transformationen. Zu diesem Zweck muss nur das spezifische Modul der Hub-Komponente aktualisiert oder ausgetauscht werden, das für die Modelltransformation für den spezifischen Datenspeicher 101, 102, 103 zuständig ist. Die zentrale Hub-Komponente 100 unterhält zwei verschiedene Schnittstellen zu den Datenspeichern: eine für den Austausch von biologischen Referenzdaten, die andere für den Austausch von Informationen über Modelle und Ontologien.
  • In Bezug auf die oben genannten Ausführungsformen, insbesondere in Bezug auf die Berechnung verteilter Qualitätswerte, wie sie z. B. in 5 beschrieben sind, sind auch die folgenden Ausführungsformen möglich, entweder alternativ zu oder zusätzlich zu den zuvor beschriebenen Ausführungsformen.
  • Dezentralisierte Hubs:
  • In einer anderen Ausführungsform wird das zentrale Computermodul durch mehrere Instanzen des zentralen Computermoduls realisiert, die jeweils die gleiche Anwendungsprogrammierschnittstelle (API) anbieten. Diese Instanzen können Datenpunkte, zugewiesene Werte, Qualitätsbewertungen und Änderungen an ihren Modelltransformationsmethoden untereinander zeitnah synchronisieren. Auf diese Weise lässt sich ein konsistentes verteiltes System zentraler Computermodulinstanzen ohne eine einzelne Schwachstelle realisieren. So kann beispielsweise ein hochverfügbarer Datenspeicher mit mehreren zentralen Computermodulen kommunizieren und mit jeder von ihnen eine Datensynchronisation durchführen. Eine weitere Möglichkeit besteht darin, dass ein zentrales Computermodul zusammen mit einem Datenspeicher installiert wird, z. B. bei einem Einsatz vor Ort in einem lokalen Datennetz. Indem die zentralen Computermodule Nachrichten untereinander austauschen können, kann durch ein vordefiniertes Datensynchronisationsprotokoll gewährleistet werden, dass der Gesamtzustand des Systems zeitnah konsistent gehalten wird.
  • Dezentralisierte Hub-Hierarchie:
  • In einer anderen Ausführungsform könnte das oben erwähnte, auf mehrere Instanzen verteilte zentrale Computermodul weiter in eine Hierarchie von Komponentengruppen strukturiert werden, die jeweils mehrere zentrale Computermoduleinheiten enthalten. Jede Gruppe könnte mehrere zentrale Computermoduleinheiten nach einem bestimmten methodischen oder betrieblichen Gesichtspunkt enthalten, z. B. hochverfügbare zentrale Computermodulinstanzen, zentrale Computermodulinstanzen, die gemeinsame Qualitätswerte teilen, zentrale Computermodulinstanzen, die mehr oder weniger eng miteinander synchronisiert sind (siehe oben), usw. Die Gruppen gewährleisten eine vollständige Datensynchronisation über die Kommunikation zwischen dedizierten zentralen Computermodulinstanzen innerhalb jeder Gruppe, die auch mit zentralen Computermodulinstanzen außerhalb der Gruppe kommunizieren. Alternativ dazu können zusätzliche zentrale Computermodule als Vermittler zwischen den Gruppen fungieren.
  • Autokorrektur:
  • In einer anderen Ausführungsform können die zentralen Computermodule und ein Datenspeicher aushandeln, welche Aspekte der ausgetauschten Daten automatisch über Qualitätsbewertungen verwaltet werden sollen und welche Aspekte einen manuellen Benutzereingriff (oder eine Benutzerbestätigung) erfordern, bevor die Daten in das zentrale Computermodul eingespeist werden können. Das zentrale Computermodul kann
    • - automatisch Gegenmaßnahmen ergreifen, um zugewiesene Werte oder Metadaten zu korrigieren, und nur den sendenden Datenspeicher über die Korrektur informieren, oder es kann
    • - die Daten zurückweisen, bis ein bestimmtes Metadatenelement korrigiert ist (falls keine automatische Korrektur möglich war). Dies könnte notwendig sein, wenn sich einige mit den Daten übertragene Metadaten als ungültig erweisen und korrigiert werden müssen, bevor die Qualitätsbewertungen ordnungsgemäß berechnet und die Daten von dem zentralen Computermodul weiterverarbeitet werden können.
  • So könnten beispielsweise die Metadaten, die die genetische Referenz definieren, auf das sich ein Satz genetischer Varianten bezieht, als falsch identifiziert werden (z. B. wenn eine Variante eine Veränderung bezeichnet, die ein Referenznukleotid voraussetzt, das sich von dem der genomischen Referenz unterscheidet). Dieses Problem kann automatisch korrigiert werden (z. B. durch Identifizierung der einzigen Referenz, das mit den Daten übereinstimmt), so dass der Datenspeicher nur über die Autokorrektur informiert werden muss. Wenn die Autokorrektur fehlschlägt, muss der Datenspeicher benachrichtigt werden, dass ein lokaler Eingriff (eine Korrektur der Metadaten, z. B. manuell) für die weitere Datenverarbeitung erforderlich ist.
  • Skalierung und Qualitätsbewertung:
  • In einer anderen Ausführungsform können sowohl der Datenspeicher als auch das zentrale Computermodul die Daten vor der Übertragung nach zuvor ausgehandelten Filterqualitätskriterien vorfiltern. Dies ist von Bedeutung, wenn die Menge der zwischen den Hubs zu übertragenden Daten zu groß ist, um sie zu verarbeiten. Die Vorfilterung der Daten kann auf der Grundlage von Qualitätsbewertungen, vordefinierten Regeln oder einer interaktiven manuellen Konfiguration durch die Nutzer des Datenspeichers erfolgen. Insbesondere können geeignete Filter autonom angepasst und erlernt werden, so wie auch geeignete Qualitätsbewertungen angepasst, verbessert und erlernt werden.
  • On-Demand-Daten und Korrektur der Qualitätsbewertung über externe Systeme
  • In einer anderen Ausführungsform kann das zentrale Computermodul über zusätzliche Schnittstellen externe Systeme ansteuern, so dass diese über Dateninkonsistenzen informiert werden, die ohne externen Eingriff, z. B. durch manuelle Arbeit, nicht zufriedenstellend behoben werden können. Die aufzulösenden Inkonsistenzen können Daten, Qualitätskennzahlen, Metadaten und eine beliebige Kombination davon umfassen. Eine gelöste Inkonsistenz wird als solche als Daten behandelt und kann daher mit weiteren Metadaten und Qualitätsbewertungen verknüpft werden. Das externe System kann diese Daten an das zentrale Computermodul zurückmelden, die diese Daten dann über das Netzwerk verteilt.
  • Automatisierte und interaktive Zusammenarbeit:
  • In einer anderen Ausführungsform können die Datenspeicher Unterstützung anfordern oder um Zusammenarbeit bitten, um beispielsweise einen Datenkonflikt zu lösen oder zusätzliche klinische Daten zu sammeln. Dies geschieht durch automatische Benachrichtigung des zentralen Computermoduls, die ihrerseits alle anderen Datenarchive abfragt. Dieser Prozess kann auch interaktiv von den Benutzern eines Datenspeichers ausgelöst werden. Der Prozess kann selbst neue Datenpunkte und Metadaten erzeugen und mit einer Qualitätsbewertung verbunden sein.
  • On-Demand-Austausch von Qualitätsmetriken und Metadaten aus Datenspeichern:
  • In einer anderen Ausführungsform können Datenbestände eine beliebige benutzerdefinierte Logik gemeinsam nutzen, mit der lokale Qualitätsbewertungen berechnet, lokale Daten gefiltert und lokale Datenkonflikte entdeckt und/oder gelöst werden, indem die Existenz solcher logischen Methoden (einer Instanz) dem zentralen Computermodul mitgeteilt und die Logik selbst bei Bedarf übertragen wird.
  • Bezugszeichenliste
  • 100
    Zentrales Computermodul
    101
    Datenspeicher
    102
    ein weiterer Datenspeicher
    103
    ein weiterer Datenspeicher
    104
    Leseterminal
    201
    Kommunikationsmodul des zentralen Computermoduls
    202
    Qualitätsbewertungsmodul des zentralen Computermoduls
    203
    Speichermodul des zentralen Computermoduls
    204
    Modelltransformationsmodul des zentralen Computermoduls
    205
    Metadatenmodul des Datenspeichers
    206
    Speichermodul des Datenspeichers
    207
    Kommunikationsmodul des Datenspeichers
    208
    Datenverwaltungsmodul des Datenspeichers
    301
    Übermittlung von Daten an das zentrale Computermodul durch den Datenspeicher
    302
    Bestimmung, ob es ähnliche Objekte im Netzwerk gibt
    303
    Abrufen ähnlicher Objekte aus dem Speicher
    304
    Berechnung der Qualitätsbewertung durch das zentrale Computermodul
    305
    Speicherung der Qualitätsbewertung durch das zentrale Computermodul
    306
    Übermittlung der Qualitätsbewertung an einen oder mehrere Datenspeicher
    401
    Empfang von Daten von dem zentralen Computermodul durch den Datenspeicher
    402
    Bestimmung des Datenkonflikts
    403
    Datenobjekt kennzeichnen
    404
    Auslösen des Überprüfungsprozesses
    405
    Bestimmung der Änderung der Bewertung
    406
    Übermittlung von Daten an das zentrale Computermodul
    501
    Mitteilung der neu berechneten privaten Punktzahl an das zentrale Computermodul
    502
    Bestimmung, ob die öffentliche Bewertung von der Änderung betroffen ist
    503
    Neuberechnung der öffentlichen Bewertung
    504
    Weitergabe aktueller Ergebnisse an abonnierte Datenbestände
    505
    Empfang aktualisierter privater Bewertungen aus Datenspeichern
    506
    Bestimmen, ob mindestens eine private Bewertung geändert wurde und die Bedingung für das Anhalten der Iteration falsch ist
    507
    Bestimmung, ob kein Ergebnis beeinflusst wurde, d.h. ein Fixpunkt erreicht ist
    508
    Meldung von Konflikten an Datenspeicher
    601
    Erstellung einer Aufforderung zur Neubewertung
    602
    Empfang von Antworten aus Datenspeichern
    603
    Senden von Anfragen an betroffene Datenspeicher
    604
    Weiterleitung von Nachrichten zwischen Satelliten-Datenspeichern
    605
    Konsolidierung der endgültigen Bewertung
  • Die vorliegende Anmeldung bezieht sich gemäß den Beispielen und unter Hinzufügung weiterer Aspekte auf die folgenden Aspekte. Der Anmelder behält sich das Recht vor, künftige Teilanmeldungen nach jedem Teil und jeder Kombination des Gegenstands der Beschreibung sowie der Aspekte einzureichen.
  • System gemäß zentralem Computermodul
    1. 1. Ein System zur Verwaltung der Datenqualität, das Folgendes umfasst:
      • - Ein zentrales Computermodul, das auf einer Computervorrichtung implementiert ist und ein computerimplementiertes Datenspeichermodul, ein computerimplementiertes Datenkommunikationsmodul und ein computerimplementiertes Qualitätsbewertungsmodul umfasst; und
      • - computerimplementierte Datenübertragungsverbindungen zu einem ersten und einem zweiten computerimplementierten Datenspeicher, die auf mindestens einem Datenbankserver gespeichert sind;
      wobei das zentrale Computermodul so konfiguriert ist, dass es über das Kommunikationsmodul einen ersten Datenpunkt, der erste erhaltene Daten und einen ersten zugewiesenen Wert umfasst, von dem ersten Datenspeicher empfängt, um in dem Qualitätsbewertungsmodul eine erste Qualitätsbewertung des ersten Datenpunkts zu bestimmen, um aus dem ersten Datenpunkt und/oder der ersten Qualitätsbewertung erste speicherbare Daten zu bestimmen und die ersten speicherbaren Daten in dem Speichermodul zu speichern; wobei das zentrale Computermodul ferner so konfiguriert ist, dass es über das computerimplementierte Kommunikationsmodul einen zweiten Datenpunkt, der zweite erhaltene Daten und einen zweiten zugewiesenen Wert umfasst, von dem zweiten Datenspeicher empfängt, um in dem Qualitätsbewertungsmodul eine zweite Qualitätsbewertung des zweiten Datenpunkts zu bestimmen, um zweite speicherbare Daten aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung zu bestimmen und um die zweiten speicherbaren Daten in dem Speichermodul zu speichern; und wobei die zweiten erhaltenen Daten den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind und das zentrale Computermodul ferner so konfiguriert ist, dass es zweite übertragbare Daten, die aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung bestimmt werden, an den ersten Datenspeicher übermittelt, wodurch der erste Datenspeicher veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.
    2. 2. Das System gemäß Aspekt 1, wobei das zentrale Computermodul ferner so konfiguriert ist, dass es den ersten Qualitätswert an den ersten Datenspeicher und/oder den zweiten Qualitätswert an den zweiten Datenspeicher übermittelt.
    3. 3. Das System gemäß Aspekt 1 oder 2, wobei das zentrale Computermodul so konfiguriert ist, dass es die zweiten übertragbaren Daten an den ersten Datenspeicher überträgt, wodurch der erste Datenspeicher veranlasst wird, den ersten zugewiesenen Wert zu aktualisieren.
    4. 4. Das System gemäß Aspekt 3, wobei das zentrale Computermodul ferner so konfiguriert ist, dass es einen aktualisierten ersten Datenpunkt, der die ersten erhaltenen Daten und einen aktualisierten ersten zugewiesenen Wert umfasst, von dem ersten Datenspeicher empfängt, um in dem Qualitätsbewertungsmodul eine aktualisierte erste Qualitätsbewertung des aktualisierten ersten Datenpunkts zu bestimmen, um aktualisierte erste speicherbare Daten aus dem aktualisierten ersten Datenpunkt und/oder der aktualisierten ersten Qualitätsbewertung zu bestimmen, um die aktualisierten ersten speicherbaren Daten in dem Speichermodul zu speichern.
    5. 5. Das System gemäß Aspekt 4, wobei das zentrale Computermodul ferner so konfiguriert ist, dass es über das computerimplementierte Datenkommunikationsmodul die aktualisierte erste Qualitätsbewertung an den ersten und/oder den zweiten Datenspeicher übermittelt.
    6. 6. Das System nach Aspekt 4 oder 5, wobei der aktualisierte erste zugewiesene Wert von dem ersten zugewiesenen Wert verschieden ist.
    7. 7. Das Verfahren nach einem der vorhergehenden Aspekte, wobei der erste zugewiesene Wert, der zweite zugewiesene Wert, die erste Qualitätsbewertung und/oder die zweite Qualität ein Vektor ist, der mindestens zwei verschiedene Werte umfasst.
    8. 8. Das System nach einem der vorhergehenden Aspekte, wobei der erste zugewiesene Wert und/oder der zweite zugewiesene Wert mindestens eine Expertenmeinung umfasst.
    9. 9. Das System nach einem der vorhergehenden Aspekte, wobei die aus einem empfangenen Datenpunkt und/oder einer entsprechenden Qualitätsbewertung ermittelten speicherbaren Daten mindestens eine der folgenden Informationen umfassen: Informationen über den Datenspeicher, aus dem die empfangenen Daten empfangen wurden, einen Zeitstempel, einen eindeutigen Bezeichner und die Qualitätsbewertung.
    10. 10. Das System nach einem der vorhergehenden Aspekte, wobei die ersten und/oder die zweiten erhaltenen Daten biologische, medizinische und/oder genomische Daten umfassen.
    11. 11. Das System nach einem der vorangegangenen Aspekte, wobei der erste zugewiesene Wert und/oder der zweite zugewiesene Wert außerdem einen Vertrauenswert umfasst.
    12. 12. Das System nach einem der vorhergehenden Aspekte, das ferner ein computerimplementiertes Modelltransformationsmodul umfasst, wobei der erste Datenspeicher Daten in einem ersten Datenformat und der zweite Datenspeicher Daten in einem zweiten Datenformat enthält und das zentrale Computermodul ferner so konfiguriert ist, dass es in dem Datentransformationsmodul Daten, die von dem ersten Datenspeicher empfangen werden, in das zweite Datenformat, Daten, die von dem zweiten Datenspeicher empfangen werden, in das erste Datenformat und/oder Daten, die von dem ersten und/oder zweiten Datenspeicher empfangen werden, in ein zentrales Datenformat transformiert.
    13. 13. Das System nach einem der Aspekte 4 bis 12, wobei das zentrale Computermodul ferner so konfiguriert ist, dass es die ersten speicherbaren Daten mit den aktualisierten ersten speicherbaren Daten überschreibt.
    14. 14. Das System nach einem der Aspekte 4 bis 12, wobei das zentrale Computermodul ferner so konfiguriert ist, dass es die ersten speicherbaren Daten im Speichermodul behält, wenn sie die aktualisierten ersten speicherbaren Daten speichert, um so eine Historie der Datenaktualisierungen zu erstellen.
    15. 15. Das System nach einem der vorhergehenden Aspekte, wobei das Qualitätsbewertungsmodul mindestens einen adaptiven Parameter umfasst, der zur Bestimmung mindestens einer der ersten Qualitätsbewertung und der zweiten Qualitätsbewertung verwendet wird.
    16. 16. Das System nach Aspekt 15, wobei mindestens einer der mindestens einen adaptiven Parameter durch das Qualitätsbewertungsmodul auf der Grundlage einer statistischen Verteilung von mindestens einigen im Speichermodul gespeicherten Daten bestimmt wird.
    17. 17. Das System nach einem der Aspekte 1 bis 16, wobei das System ferner mindestens eine erste und/oder eine zweite computerimplementierte Datenverwaltungsschnittstelle umfasst, die so konfiguriert ist, dass sie auf einem Datenbankserver ausgeführt wird, wobei die Datenverwaltungsschnittstelle so konfiguriert ist, dass sie den ersten Datenpunkt, der die ersten erhaltenen Daten und den ersten zugewiesenen Wert umfasst, an das zentrale Computermodul überträgt, Informationen über den zweiten Datenpunkt von dem zentralen Computermodul empfängt und den ersten zugewiesenen Wert auf der Grundlage der empfangenen Informationen über den zweiten Datenpunkt neu bewertet und/oder die Datenverwaltung veranlasst, ihn neu zu bewerten.
    18. 18. Das System gemäß Aspekt 17, wobei die erste und/oder die zweite computerimplementierte Datenverwaltungsschnittstelle ferner so konfiguriert ist, dass sie eine erste Qualitätsbewertung des ersten Datenpunkts empfängt und im Datenspeicher speichert und/oder eine zweite Qualitätsbewertung des zweiten Datenpunkts vom zentralen Computermodul empfängt.
    19. 19. Das System gemäß Aspekt 17, wobei die computerimplementierte Schnittstelle des Datenspeichers ferner so konfiguriert ist, dass sie eine Qualitätsbewertung eines Datenpunkts bestimmt, der in dem Datenspeicher gespeichert ist oder von dem zentralen Computermodul oder einem anderen Datenspeicher empfangen wurde.
    20. 20. Das System nach einem der Aspekte 18 oder 19, wobei der erste zugewiesene Wert auf der Grundlage der empfangenen Informationen über den zweiten Datenpunkt und der empfangenen und/oder ermittelten Qualitätsbewertungen neu bewertet wird.
    21. 21. Das System nach einem der Aspekte 17 bis 20, wobei die Schnittstelle des Datenspeichers ferner so konfiguriert ist, dass sie den ersten zugewiesenen Wert auf der Grundlage der empfangenen Informationen über den zweiten Datenpunkt auf einen aktualisierten ersten zugewiesenen Wert aktualisiert, der sich von dem ersten zugewiesenen Wert unterscheidet.
    22. 22. Das System nach einem der vorhergehenden Aspekte, wobei die ersten erhaltenen Daten Metadaten umfassen, die sich auf die Datenspeicher gespeicherten Daten beziehen.
    23. 23. Das System gemäß Aspekt 22, wobei die Metadaten Daten umfassen, die sich auf eine Anzahl ähnlicher Instanzen beziehen, die in dem Datenspeicher gespeichert sind.
    24. 24. Das System gemäß einem der vorangehenden Aspekte umfasst ferner mindestens einen der beiden Datenspeicher, nämlich den ersten und/oder den zweiten Datenspeicher.
  • Hauptmethode gemäß zentralem Computermodul
    • 25. Verfahren zum automatischen Datenqualitätsmanagement, das die folgenden Schritte umfasst, die zur Ausführung auf einem Computerprozessor implementiert sind:
      • - Empfang eines ersten Datenpunkts, der erste erhaltene Daten und einen ersten zugewiesenen Wert aus einem ersten Datenspeicher umfasst,
      • - Bestimmung einer ersten Qualitätsbewertung des ersten Datenpunkts,
      • - Bestimmung erster speicherbarer Daten aus dem ersten Datenpunkt und/oder der ersten Qualitätsbewertung,
      • - Speicherung der ersten speicherbaren Daten in einem computerimplementierten zentralen Speichermodul,
      • - Empfang eines zweiten Datenpunkts, der zweite erhaltene Daten, die den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind, und einen zweiten zugewiesenen Wert aus einem zweiten Datenspeicher umfasst,
      • - Bestimmung einer zweiten Qualitätsbewertung des zweiten Datenpunkts,
      • - Bestimmung zweiter speicherbarer Daten aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung,
      • - Speichern der zweiten speicherbaren Daten im Speichermodul und
      • - Übertragen von übertragbaren zweiten Daten, die aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung ermittelt wurden, an den ersten Datenspeicher, wodurch der erste Datenspeicher veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.
    • 26. Das Verfahren nach Aspekt 25 umfasst ferner den Schritt der Übertragung der ersten Qualitätsbewertung an den ersten Datenspeicher und/oder die Übertragung der zweiten Qualitätsbewertung an den zweiten Datenspeicher.
    • 27. Das Verfahren nach Aspekt 25 oder 26, wobei das Übertragen der übertragbaren zweiten Daten an den ersten Datenspeicher bewirkt, dass der erste Datenspeicher den ersten zugewiesenen Wert aktualisiert.
    • 28. Das Verfahren nach einem der Aspekte 25 bis 27 umfasst außerdem die folgenden Schritte
      • - Empfang eines aktualisierten ersten Datenpunkts, der die ersten erhaltenen Daten und einen aktualisierten ersten zugewiesenen Wert aus dem ersten Datenspeicher umfasst,
      • - Bestimmung einer aktualisierten ersten Qualitätsbewertung des aktualisierten ersten Datenpunkts,
      • - Bestimmung aktualisierter erster speicherbarer Daten aus dem aktualisierten ersten Datenpunkt und/oder der aktualisierten ersten Qualitätsbewertung, und
      • - Speicherung der aktualisierten ersten speicherbaren Daten in dem zentralen Speichermodul.
    • 29. Das Verfahren nach einem der Aspekte 25 bis 28 umfasst ferner den Schritt der Übermittlung der aktualisierten ersten Qualitätsbewertung an den ersten und/oder den zweiten Datenspeicher.
    • 30. Das Verfahren nach einem der Aspekte 27 bis 29, wobei der aktualisierte erste zugewiesene Wert von dem ersten zugewiesenen Wert verschieden ist.
    • 31. Verfahren nach einem der Aspekte 25 bis 30, wobei die Qualitätswerte durch statistische Verfahren bestimmt werden, die eine Gewichtung der erhaltenen Daten nach Gewichtungsparametern und/oder die Bestimmung eines Mittelwerts oder eines Medians der erhaltenen Daten beinhalten.
    • 32. Verfahren nach einem der Aspekte 25 bis 31, wobei der erste zugewiesene Wert, der zweite zugewiesene Wert, die erste Qualitätsbewertung und/oder die zweite Qualitätsbewertung ein Vektor ist, der mindestens zwei unterschiedliche Werte umfasst.
    • 33. Das Verfahren nach einem der Aspekte 25 bis 32, wobei der erste zugewiesene Wert und/oder der zweite zugewiesene Wert mindestens eine Expertenmeinung umfasst.
    • 34. Das Verfahren nach einem der Aspekte 25 bis 33, wobei die ersten und/oder die zweiten erhaltenen Daten biologische, medizinische und/oder genomische Daten umfassen.
    • 35. Das Verfahren nach einem der Aspekte 25 bis 34, wobei der erste zugewiesene Wert und/oder der zweite zugewiesene Wert außerdem einen Vertrauenswert umfasst.
    • 36. Das Verfahren nach einem der Aspekte 28 bis 35, wobei die ersten speicherbaren Daten durch die aktualisierten ersten speicherbaren Daten überschrieben werden.
    • 37. Das Verfahren nach einem der Aspekte 25 bis 35, wobei die ersten speicherbaren Daten in einem Speicher gehalten werden, wenn die aktualisierten ersten speicherbaren Daten gespeichert werden, um eine Historie der Datenaktualisierungen zu erstellen.
    • 38. Das Verfahren nach einem der Aspekte 25 bis 36, wobei die Bestimmung mindestens einer der ersten Qualitätsbewertung und der zweiten Qualitätsbewertung auf mindestens einem adaptiven Parameter basiert.
    • 39. Verfahren nach Aspekt 38, wobei mindestens einer der mindestens einen adaptiven Parameter auf der Grundlage einer statistischen Verteilung von mindestens einigen im Speicher gespeicherten Daten bestimmt wird.
  • Computerprogrammprodukt
    • 40. Ein Computerprogrammprodukt für das Datenqualitätsmanagement, das auf einem computerlesbaren Medium gespeichert ist und das, wenn es auf einem Computer ausgeführt wird, so konfiguriert ist, dass es das Verfahren nach einem der Aspekte 25 bis 39 ausführt.
  • Verfahren gemäß Datenspeicher
    • 41. Ein Verfahren zur automatischen Verbesserung der Datenqualität eines computerimplementierten Datenspeichers, das die folgenden Schritte umfasst:
      • - Übermittlung eines ersten Datenpunkts, der erste erhaltene Daten und einen ersten zugewiesenen Wert umfasst, an ein zentrales Computermodul
      • - Empfangen von Informationen über einen zweiten Datenpunkt, der zweite erhaltene Daten, die den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind, und einen zweiten zugewiesenen Wert von dem zentralen Computermodul umfasst
      • - Neubewertung des ersten zugewiesenen Wertes auf der Grundlage der empfangenen Informationen über den zweiten Datenpunkt.
    • 42. Das Verfahren nach Aspekt 41, wobei das Verfahren ferner den Schritt des Empfangens und Speicherns einer ersten Qualitätsbewertung des ersten Datenpunktes und/oder des Empfangens einer zweiten Qualitätsbewertung des zweiten Datenpunktes von dem zentralen Computermodul im Datenspeicher umfasst.
    • 43. Das Verfahren nach Aspekt 41 oder 42, wobei das Verfahren ferner den Schritt der Bestimmung von Qualitätsbewertungen eines Datenpunktes umfasst, der in dem Datenspeicher gespeichert ist oder von dem zentralen Computermodul oder einem anderen Datenspeicher empfangen wurde.
    • 44. Das Verfahren nach einem der Aspekte 41 bis 43, wobei der erste zugewiesene Wert auf der Grundlage der empfangenen Informationen über den zweiten Datenpunkt und der empfangenen und/oder ermittelten Qualitätsbewertungen neu bewertet wird.
    • 45. Das Verfahren nach einem der Aspekte 41 bis 44, wobei die Neubewertung des ersten zugewiesenen Wertes die Aktualisierung des ersten zugewiesenen Wertes auf einen aktualisierten ersten zugewiesenen Wert beinhaltet, der sich von dem ersten zugewiesenen Wert unterscheidet.
    • 46. Das Verfahren nach einem der Aspekte 41 bis 45, wobei die ersten erhaltenen Daten Metadaten umfassen, die sich auf in der Datenbank gespeicherte Daten beziehen.
    • 47. Das Verfahren nach Aspekt 46, wobei die Metadaten Daten umfassen, die sich auf eine Anzahl ähnlicher Instanzen beziehen, die in dem Datenspeicher gespeichert sind.
  • System mit Schnittstelle zum Datenspeicher
    • 48. Das System nach einem der Aspekte 1 bis 16, wobei das System ferner mindestens eine erste und/oder eine zweite computerimplementierte Datenspeicherschnittstelle umfasst, die so konfiguriert ist, dass sie auf einem Datenbankserver ausgeführt wird, wobei die Datenspeicherschnittstelle nach einem der Aspekte 41 bis 47 konfiguriert ist.
    • 49. Das System oder Verfahren nach einem der Aspekte 1 - 48, wobei die zweiten übertragbaren Daten die zweite Qualitätsbewertung umfassen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 8359297 [0006]

Claims (13)

  1. System zur Verwaltung der Datenqualität, das Folgendes umfasst: - Ein zentrales Computermodul (100), das auf einer Computervorrichtung implementiert ist und ein computerimplementiertes Datenspeichermodul (203), ein computerimplementiertes Datenkommunikationsmodul (201) und ein computerimplementiertes Qualitätsbewertungsmodul (202) umfasst; und - computerimplementierte Datenübertragungsverbindungen (105, 106) zu einem ersten und einem zweiten computerimplementierten Datenspeicher (101, 102), die auf mindestens einem Datenbankserver gespeichert sind; wobei das zentrale Computermodul (100) so konfiguriert ist, dass es über das Kommunikationsmodul (201) einen ersten Datenpunkt, der erste erhaltene Daten und einen ersten zugewiesenen Wert umfasst, von dem ersten Datenspeicher (101) empfängt, um in dem Qualitätsbewertungsmodul (202) eine erste Qualitätsbewertung des ersten Datenpunkts zu bestimmen, um aus dem ersten Datenpunkt und/oder der ersten Qualitätsbewertung erste speicherbare Daten zu bestimmen und die ersten speicherbaren Daten in dem Speichermodul (203) zu speichern; wobei das zentrale Computermodul (100) ferner so konfiguriert ist, dass es über das computerimplementierte Kommunikationsmodul (201) einen zweiten Datenpunkt, der zweite erhaltene Daten und einen zweiten zugewiesenen Wert umfasst, von dem zweiten Datenspeicher (102) empfängt, um in dem Qualitätsbewertungsmodul (202) eine zweite Qualitätsbewertung des zweiten Datenpunkts zu bestimmen, um zweite speicherbare Daten aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung zu bestimmen und um die zweiten speicherbaren Daten in dem Speichermodul (203) zu speichern; und wobei die zweiten erhaltenen Daten den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind und das zentrale Computermodul (100) ferner so konfiguriert ist, dass es zweite übertragbare Daten, die aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung bestimmt werden, an den ersten Datenspeicher (101) übermittelt, wodurch der erste Datenspeicher (101) veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.
  2. System gemäß Anspruch 1, wobei das zentrale Computermodul (100) so konfiguriert ist, dass es die zweiten übertragbaren Daten an den ersten Datenspeicher (101) überträgt, wodurch der erste Datenspeicher (101) veranlasst wird, den ersten zugewiesenen Wert aktualisiert.
  3. System gemäß Anspruch 2, wobei das zentrale Computermodul (100) ferner so konfiguriert ist, dass es einen aktualisierten ersten Datenpunkt, der die ersten erhaltenen Daten und einen aktualisierten ersten zugewiesenen Wert umfasst, von dem ersten Datenspeicher (101) empfängt, um in dem Qualitätsbewertungsmodul (202) eine aktualisierte erste Qualitätsbewertung des aktualisierten ersten Datenpunkts zu bestimmen, um aktualisierte erste speicherbare Daten aus dem aktualisierten ersten Datenpunkt und/oder der aktualisierten ersten Qualitätsbewertung zu bestimmen, um die aktualisierten ersten speicherbaren Daten in dem Speichermodul (203) zu speichern.
  4. System gemäß Anspruch 3, wobei das zentrale Computermodul (100) ferner so konfiguriert ist, dass es über das computerimplementierte Datenkommunikationsmodul (201) die aktualisierte erste Qualitätsbewertung an den ersten und/oder den zweiten Datenspeicher (101, 102) übermittelt.
  5. System nach einem der vorhergehenden Ansprüche, das ferner ein computerimplementiertes Modelltransformationsmodul (204) umfasst, wobei der erste Datenspeicher (101) Daten in einem ersten Datenformat und der zweite Datenspeicher (102) Daten in einem zweiten Datenformat enthält und das zentrale Computermodul (100) ferner so konfiguriert ist, dass es in dem Datentransformationsmodul (204) Daten, die von dem ersten Datenspeicher (101) empfangen werden, in das zweite Datenformat, Daten, die von dem zweiten Datenspeicher (102) empfangen werden, in das erste Datenformat und/oder Daten, die von dem ersten und/oder zweiten Datenspeicher (101, 102) empfangen werden, in ein zentrales Datenformat transformiert.
  6. System gemäß einem der vorangehenden Ansprüche ferner umfassend mindestens einen der ersten und/oder zweiten Datenspeicher (101, 102).
  7. System nach einem der vorhergehenden Ansprüche, wobei die ersten und/oder die zweiten erhaltenen Daten biologische, medizinische und/oder genomische Daten umfassen.
  8. System nach einem vorhergehenden Ansprüche, wobei die zweiten übertragbaren Daten die zweite Qualitätsbewertung umfassen.
  9. Auf einem computerlesbaren Medium gespeichertes Computerprogrammprodukt für das Datenqualitätsmanagement, das, wenn es auf einem Computer ausgeführt wird, so konfiguriert ist, dass es die folgenden Schritte ausführt: - Empfang (301) eines ersten Datenpunkts, der erste erhaltene Daten und einen ersten zugewiesenen Wert aus einem ersten Datenspeicher (101) umfasst, - Bestimmung (304) einer ersten Qualitätsbewertung des ersten Datenpunkts, - Bestimmung erster speicherbarer Daten aus dem ersten Datenpunkt und/oder der ersten Qualitätsbewertung, - Speicherung (306) der ersten speicherbaren Daten in einem computerimplementierten zentralen Speichermodul (203), - Empfang (301) eines zweiten Datenpunkts, der zweite erhaltene Daten, die den ersten erhaltenen Daten gemäß einem vordefinierten Ähnlichkeitsmaß ähnlich sind, und einen zweiten zugewiesenen Wert aus einem zweiten Datenspeicher (102) umfasst, - Bestimmung (304) einer zweiten Qualitätsbewertung des zweiten Datenpunkts, - Bestimmung zweiter speicherbarer Daten aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung, - Speichern der zweiten speicherbaren Daten im Speichermodul (203) und - Übertragen von übertragbaren zweiten Daten, die aus dem zweiten Datenpunkt und/oder der zweiten Qualitätsbewertung ermittelt wurden, an den ersten Datenspeicher, wodurch der erste Datenspeicher (101) veranlasst wird, den ersten zugewiesenen Wert neu zu bewerten.
  10. Computerprogrammprodukt nach Anspruch 9, wobei das Computerprogrammprodukt, wenn es auf einem Computer ausgeführt wird, ferner so konfiguriert ist, dass es den des Übertragens der übertragbaren zweiten Daten an den ersten Datenspeicher ausführt, indem es den ersten Datenspeicher (101) veranlasst, den ersten zugewiesenen Wert zu aktualisieren.
  11. Computerprogrammprodukt nach Anspruch 9 oder 10, wobei das Computerprogrammprodukt, wenn es auf einem Computer ausgeführt wird, ferner so konfiguriert ist, dass es die folgenden Schritte ausführt: - Empfang eines aktualisierten ersten Datenpunkts, der die ersten erhaltenen Daten und einen aktualisierten ersten zugewiesenen Wert aus dem ersten Datenspeicher (101) umfasst, - Bestimmung (304) einer aktualisierten ersten Qualitätsbewertung des aktualisierten ersten Datenpunkts, - Bestimmung aktualisierter erster speicherbarer Daten aus dem aktualisierten ersten Datenpunkt und/oder der aktualisierten ersten Qualitätsbewertung, und - Speicherung der aktualisierten ersten speicherbaren Daten in dem zentralen Speichermodul (203).
  12. Computerprogrammprodukt nach einem der Ansprüche 9-11, wobei das Computerprogrammprodukt, wenn es auf einem Computer ausgeführt wird, ferner so konfiguriert ist, dass es den Schritt der Übermittlung der aktualisierten ersten Qualitätsbewertung an den ersten und/oder den zweiten Datenspeicher (101, 102) umfasst.
  13. Computerprogrammprodukt nach einem der Ansprüche 9-12, wobei die ersten und/oder die zweiten erhaltenen Daten biologische, medizinische und/oder genomische Daten umfassen.
DE202016009111.6U 2015-06-05 2016-06-01 System zur Verwaltung der Datenqualität Active DE202016009111U1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15170816 2015-06-05
EP15170816.1A EP3101574A1 (de) 2015-06-05 2015-06-05 Datenqualitätverwaltungssystem und -verfahren

Publications (1)

Publication Number Publication Date
DE202016009111U1 true DE202016009111U1 (de) 2022-08-01

Family

ID=53396276

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202016009111.6U Active DE202016009111U1 (de) 2015-06-05 2016-06-01 System zur Verwaltung der Datenqualität

Country Status (6)

Country Link
US (2) US20180150281A1 (de)
EP (2) EP3101574A1 (de)
JP (1) JP6726273B2 (de)
CN (1) CN107683477A (de)
DE (1) DE202016009111U1 (de)
WO (1) WO2016193311A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7293139B2 (ja) * 2018-02-16 2023-06-19 イルミナ インコーポレイテッド バリアントコーリングの相関誤差事象軽減のためのシステムおよび方法
CN110162779B (zh) * 2019-04-04 2023-08-04 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110362829B (zh) * 2019-07-16 2023-01-03 北京百度网讯科技有限公司 结构化病历数据的质量评估方法、装置及设备
CN116303380B (zh) * 2023-01-10 2024-01-23 浪潮智慧科技有限公司 一种监测业务中的数据质量校验方法、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359297B2 (en) 2006-06-29 2013-01-22 International Business Machines Corporation Multiple source data management using a conflict rule

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141664A (en) * 1996-11-13 2000-10-31 Puma Technology, Inc. Synchronization of databases with date range
US20040186842A1 (en) * 2003-03-18 2004-09-23 Darren Wesemann Systems and methods for providing access to data stored in different types of data repositories
US7676522B2 (en) * 2007-04-20 2010-03-09 Sap Ag Method and system for including data quality in data streams
WO2014060305A1 (en) * 2012-10-15 2014-04-24 Technical University Of Denmark Database-driven primary analysis of raw sequencing data
US9591052B2 (en) * 2013-02-05 2017-03-07 Apple Inc. System and method for providing a content distribution network with data quality monitoring and management
GB2517787A (en) * 2013-09-03 2015-03-04 Ibm Method and system for accessing a set of data tables in a source database

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359297B2 (en) 2006-06-29 2013-01-22 International Business Machines Corporation Multiple source data management using a conflict rule

Also Published As

Publication number Publication date
JP6726273B2 (ja) 2020-07-22
US20220365749A1 (en) 2022-11-17
US20180150281A1 (en) 2018-05-31
EP3101574A1 (de) 2016-12-07
JP2018524747A (ja) 2018-08-30
EP3304387A1 (de) 2018-04-11
WO2016193311A1 (en) 2016-12-08
CN107683477A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
DE202017007517U1 (de) Aggregatmerkmale für maschinelles Lernen
DE112021000189T5 (de) Mikrodienst-Aufspaltungsstrategie von monolithischen Anwendungen
DE102018202875A1 (de) System und Verfahren zur multimodalen graphenbasierten Personalisierung
DE202016009111U1 (de) System zur Verwaltung der Datenqualität
DE60004507T2 (de) Schnelle gruppierung durch spärlich bestückte datensätze
DE112012004036T5 (de) Definieren des Geltungsbereichs und Verwalten der Rollenentwicklung
DE112021001986T5 (de) Verfahren und System zum Verarbeiten von Datenaufzeichnungen
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
DE102014113692A1 (de) Verdichtung von longitudinalen epa für eine verbesserte phänotypisierung
DE102017207686A1 (de) Einblicke in die belegschaftsstrategie
DE202015009292U1 (de) Erzeugung eines Aktivitätsflusses
DE102004013650A1 (de) System und Verfahren zur Verarbeitung von Information betreffend Labortests und Ergebnisse
DE112011100620T5 (de) Verfahren und system zum verwalten der lebensdauer von semantisch gekennzeichneten daten
DE10300545A1 (de) Vorrichtung, Verfahren, Speichermedium und Datenstruktur zur Kennzeichnung und Speicherung von Daten
DE102021004157A1 (de) Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten
DE112018001524T5 (de) Gesundheitsdaten-analysesystem-verwaltung
DE112018001290T5 (de) Verfahren zum Schätzen der Löschbarkeit von Datenobjekten
DE112020002892T5 (de) Aktives lernen für den datenabgleich
DE102018132623A1 (de) System und Verfahren zur Informationsübermittlung von Gesundheitsinformationen
DE112018005620T5 (de) Auftragsverwaltung in einem datenverarbeitungssystem
DE102018219070B3 (de) Übertragen eines Datensatzes und Bereitstellen einer Datenübertragungsinformation
EP3716578B1 (de) Verfahren und eine vorrichtung zum ansteuern eines technischen geräts mit einem optimalen modell
DE112020001314T5 (de) System und Verfahren für eine Datenkuration
DE112012005344T5 (de) Verfahren, Computerprogramm und Computer zum Erkennen von Trends in sozialen Medien

Legal Events

Date Code Title Description
R151 Utility model maintained after payment of second maintenance fee after six years
R207 Utility model specification