DE102022207482B4 - Computer-implemented method for determining a data quality index, computer program and control unit - Google Patents

Computer-implemented method for determining a data quality index, computer program and control unit Download PDF

Info

Publication number
DE102022207482B4
DE102022207482B4 DE102022207482.3A DE102022207482A DE102022207482B4 DE 102022207482 B4 DE102022207482 B4 DE 102022207482B4 DE 102022207482 A DE102022207482 A DE 102022207482A DE 102022207482 B4 DE102022207482 B4 DE 102022207482B4
Authority
DE
Germany
Prior art keywords
data
quality index
value
entries
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102022207482.3A
Other languages
German (de)
Other versions
DE102022207482A1 (en
Inventor
Hannah Schlotter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Priority to DE102022207482.3A priority Critical patent/DE102022207482B4/en
Publication of DE102022207482A1 publication Critical patent/DE102022207482A1/en
Application granted granted Critical
Publication of DE102022207482B4 publication Critical patent/DE102022207482B4/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex (1) von Daten, umfassend: Empfangen von strukturierten Daten, welche insbesondere in Spalten und Zeilen strukturierte Einträge umfassen, Empfangen und/oder Bestimmen von Informationen über die Daten, Auswerten der Informationen über die Daten, um zumindest eine Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) zu erlangen, und Bestimmen des Datenqualitätsindex (1) der Daten auf Basis der zumindest einen Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1).The invention relates to a computer-implemented method for determining a data quality index (1) of data, comprising: receiving structured data, which in particular includes entries structured in columns and rows, receiving and/or determining information about the data, evaluating the information about the data to obtain at least one component (2, 3, 4, 5, 6, 7) of the data quality index (1), and determining the data quality index (1) of the data based on the at least one component (2, 3, 4, 5, 6, 7) of the data quality index (1).

Description

Die vorliegende Erfindung betrifft ein computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex von Daten, ein Computerprogramm und eine Steuereinheit, die dazu ausgestaltet ist, das Verfahren auszuführen.The present invention relates to a computer-implemented method for determining a data quality index of data, a computer program and a control unit designed to carry out the method.

Datenqualität spielt in der heutigen datengesteuerten Welt eine wichtige Rolle. So ist es beispielsweise wichtig, nicht selbst erzeugte Daten oder Datensätze hinsichtlich deren Qualität zu prüfen, bevor diese weiteren Prozessen zugrunde gelegt werden. So ist es für einen Verarbeiter von Daten beispielsweise von besonderem Interesse, den Datenhintergrund der Daten zu verstehen und die Daten nicht nur oberflächlich zu analysieren. Es kann jedoch sehr zeitaufwendig sein, den entsprechenden Dateneigentümer oder Datenersteller zu identifizieren und zu finden, der detailliert Auskunft über den jeweiligen Datensatz geben kann, um den Datenhintergrund zu verstehen. Dies erfordert in der Regel einen regelmäßigen Austausch mit anderen Personen. Oft ist es so, dass der Verarbeiter und der Ersteller der Daten in unterschiedlichen Abteilungen oder sogar unterschiedlichen Regionen eingesetzt ist, wodurch ein hoher Kommunikationsaufwand entsteht. Ferner muss der Datenhintergrund bei jeder erneuten Verwendung der Daten erneut geprüft werden, wenn sich beispielsweise eine neue Person für die Arbeit mit dem jeweiligen Datensatz interessiert. Dies ist nicht effizient und verlangsamt Entwicklungsprozesse.Data quality plays an important role in today's data-driven world. For example, it is important to check the quality of data or data sets that you have not generated yourself before using them as a basis for further processes. For example, it is of particular interest for a data processor to understand the data background of the data and not just analyze the data superficially. However, it can be very time-consuming to identify and find the appropriate data owner or data creator who can provide detailed information about the respective data set in order to understand the data background. This usually requires regular communication with other people. It is often the case that the processor and the creator of the data are deployed in different departments or even different regions, which creates a high communication effort. Furthermore, the data background must be checked again every time the data is used again, for example if a new person is interested in working with the respective data set. This is not efficient and slows down development processes.

Daher ist es eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung bereitzustellen, welche einen Datenhintergrund von einem bereitgestellten Datensatz einfach zugänglich machen kann, um diese Daten grundlegend zu verstehen und eine weitere Verarbeitung der Daten darauf zu basieren.It is therefore an object of the present invention to provide a method and a device which can make a data background from a provided data set easily accessible in order to fundamentally understand this data and to base further processing of the data on it.

Verfahren bzw. Vorrichtungen, die sich mit Daten auseinandersetzen, sind beispielsweise aus US 2021 / 0 263 900 A1 , US 2014 / 0 229 456 A1 , US 2013 / 0 185 309 A1 und US 2020 / 0 380 379 A1 bekannt.For example, methods or devices that deal with data are out US 2021 / 0 263 900 A1 , US 2014 / 0 229 456 A1 , US 2013 / 0 185 309 A1 and US 2020 / 0 380 379 A1 known.

Das Problem wird mit einem Verfahren mit den Merkmalen des Anspruchs 1, mit einem Computerprogramm mit den Merkmalen des Anspruchs 15 und mit einer Steuereinheit mit den Merkmalen des Anspruchs 16 gelöst.The problem is solved with a method with the features of claim 1, with a computer program with the features of claim 15 and with a control unit with the features of claim 16.

Gemäß einem Aspekt der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex von Daten bereitgestellt, wobei das Verfahren umfasst:

  • Empfangen von strukturierten Daten, welche insbesondere in Spalten und Zeilen strukturierte Einträge umfassen,
  • Empfangen und/oder Bestimmen von Informationen über die Daten,
  • Auswerten der Informationen über die Daten, um zumindest eine Komponente des Datenqualitätsindex zu erlangen,
  • Bestimmen des Datenqualitätsindex der Daten auf Basis der zumindest einen Komponente des Datenqualitätsindex und
  • Aussortieren und/oder Vorsortieren und/oder Auswählen von Bauteilen, wobei dazu der Datenqualitätsindex genutzt wird.
According to one aspect of the present invention, there is provided a computer-implemented method for determining a data quality index of data, the method comprising:
  • Receiving structured data, which in particular includes entries structured in columns and rows,
  • Receiving and/or determining information about the data,
  • Evaluating the information about the data in order to obtain at least one component of the data quality index,
  • Determining the data quality index of the data based on the at least one component of the data quality index and
  • Sorting out and/or pre-sorting and/or selecting components, using the data quality index for this purpose.

Gegenüber dem bekannten Stand der Technik kann mit dem obigen Verfahren eine Datenqualität der empfangenen oder erlangten Daten gemessen oder bestimmt werden. Ferner ist es bei dem obigen Verfahren nicht notwendig, eine Vielzahl verschiedener Annahmen und/oder Voraussetzungen zu erfüllen, um Daten hinsichtlich ihrer Datenqualität zu analysieren. Gemäß einer Ausführungsform umfasst der Datenqualitätsindex sechs verschiedenen Komponenten. Jede Komponente kann durch ein oder mehrere mathematische Maße oder Formeln berechnet werden. Durch die mathematischen Formeln ist eine objektive Messung von Datenqualität möglich. Jedes Maß kann normiert sein, d. h. für alle Berechnungen kann ein einheitliches Ergebnisintervall verwendet werden. Bei unterschiedlichen Zahlenintervallen würde demgegenüber die Gefahr bestehen, dass einzelne Komponenten des Datenqualitätsindex aufgrund ihres größeren Zahlenintervalls künstlich gewichtet würden. Durch die Normierung ist jede Komponente gleich wichtig und somit ungewichtet. Optional können durch eine Vorgabe von Gewichtungsfaktoren eine oder mehrere Komponenten gewichtet werden. Für die Berechnung einzelner Komponenten sind Informationen über die Daten oder den Datensatz notwendig (beispielsweise Informationen über die Spalten und/oder Zeilen der Daten). Diese Informationen über die Daten (z.B. Metadaten) können als Zwischenlösung in einem Datenwörterbuch abgespeichert werden. Das Datenwörterbuch kann die Daten beschreiben und somit Informationen über die Daten bereitstellen. Ferner können die Informationen aus einem Datenkatalog abgerufen werden. In dem Datenkatalog können sowohl die Informationen über die Daten als auch die Daten selbst zentral oder dezentral gespeichert sein.Compared to the known prior art, the above method can be used to measure or determine a data quality of the received or acquired data. Furthermore, with the above method it is not necessary to fulfill a large number of different assumptions and/or requirements in order to analyze data with regard to its data quality. According to one embodiment, the data quality index includes six different components. Each component can be calculated by one or more mathematical measures or formulas. The mathematical formulas enable objective measurement of data quality. Each measure can be standardized, meaning that a uniform result interval can be used for all calculations. With different number intervals, there would be a risk that individual components of the data quality index would be artificially weighted due to their larger number interval. Due to the standardization, each component is equally important and therefore unweighted. Optionally, one or more components can be weighted by specifying weighting factors. To calculate individual components, information about the data or the data set is necessary (for example information about the columns and/or rows of the data). This information about the data (e.g. metadata) can be stored in a data dictionary as an interim solution be cherted. The data dictionary can describe the data and thus provide information about the data. The information can also be retrieved from a data catalog. In the data catalog, both the information about the data and the data itself can be stored centrally or decentrally.

Gemäß einer Ausführungsform umfasst der Datenqualitätsindex sechs verschiedene Komponenten und neun mathematische Maße (d.h. mathematische Formeln). Die mathematischen Maße oder Formeln können auch als Subkomponenten der Komponenten des Datenqualitätsindex bezeichnet sein. Der Datenqualitätsindex kann jedoch flexibel durch weitere Komponenten und/oder Subkomponenten erweitert werden. Denkbar ist, dass der Datenqualitätsindex nach Art der Daten in seiner Zusammensetzung und Berechnung unterschieden wird, wie z.B. für die Daten betreffend Zeitreihen. Der Datenqualitätsindex kann besonders vorteilhaft für Daten (Datensätze) in Art eines Tabellenschemas bestimmt werden.According to one embodiment, the data quality index includes six different components and nine mathematical measures (i.e., mathematical formulas). The mathematical measures or formulas can also be referred to as subcomponents of the components of the data quality index. However, the data quality index can be flexibly expanded with additional components and/or subcomponents. It is conceivable that the data quality index is differentiated according to the type of data in its composition and calculation, such as for data relating to time series. The data quality index can be particularly advantageously determined for data (records) in the form of a table schema.

Eine hohe Datenqualität ist eine essenzielle Voraussetzung für alle datengetriebenen Projekte und Ergebnisse. Ohne eine ausreichende Datenqualität besteht die Gefahr von Missinterpretationen und Fehlentscheidungen. Datenqualität kann sehr subjektiv ausgelegt werden. Ohne die Definition von Datenqualität mit mathematischen Formeln ist keine transparente und objektive Bewertung der Daten möglich. Gemäß einem Aspekt der vorliegenden Erfindung werden strukturierte Daten als Eingangsdaten (d.h. als strukturierte Daten oder strukturierter Datensatz) dem Verfahren zur Verfügung gestellt. Strukturierte Daten können dabei beispielsweise in Tabellenform in Spalten und Zeilen angeordnet sein. Im Sinne der vorliegenden Erfindung sind strukturierte Daten insbesondere keine semantischen Daten, Bilddaten, Tondaten oder Videodaten. Die Daten können Einträge (d.h. Werte) in Spalten und Zeilen umfassen. Die Einträge können numerische und/oder Schriftzeichen umfassen. Jeder Eintrag kann einer Zelle eingefügt sein, die eindeutig durch eine Spalte und eine Zeile zuordenbar ist, eingetragen. Die Daten können aus einem Informationsmanagementsystem erlangt werden. Alternativ oder zusätzlich können die Daten auch direkt dem Verfahren zur Verfügung gestellt werden. Ferner ist es denkbar, dass das Verfahren an eine Datenbank oder mehrere Datenbanken (z.B. „Data Lakes“) angeschlossen wird, um sämtlichen dort gespeicherten Daten einen Datenqualitätsindex zuzuweisen.High data quality is an essential prerequisite for all data-driven projects and results. Without sufficient data quality, there is a risk of misinterpretations and wrong decisions. Data quality can be interpreted very subjectively. Without defining data quality using mathematical formulas, a transparent and objective evaluation of the data is not possible. According to one aspect of the present invention, structured data is provided as input data (i.e. as structured data or structured data set) to the method. Structured data can, for example, be arranged in table form in columns and rows. For the purposes of the present invention, structured data is in particular not semantic data, image data, sound data or video data. The data can include entries (i.e. values) in columns and rows. The entries can include numeric and/or written characters. Each entry can be inserted into a cell that can be clearly assigned by a column and a row. The data can be obtained from an information management system. Alternatively or additionally, the data can also be made available directly to the process. It is also conceivable that the method is connected to a database or several databases (e.g. “data lakes”) in order to assign a data quality index to all data stored there.

Die Informationen über die Daten können zusammen mit den Daten gespeichert sein und somit gleichzeitig mit den eigentlichen Daten dem Verfahren zur Verfügung gestellt werden (d. h. empfangen werden). Gegenüber den eigentlichen strukturierten Daten, welche Messwerte oder simulierte Daten für ein technisches Bauteil umfassen, umfassen die Informationen über die Daten Informationen, die die strukturierten Daten beschreiben. Mit anderen Worten können die Informationen über die Daten eine Beschreibung und/oder eine Charakterisierung der strukturierten Daten sein. Die Informationen über die Daten können ausgewertet werden, um die zumindest eine Komponente des Datenqualitätsindex zu erlangen oder zu bestimmen. Mit anderen Worten können zur Bestimmung der zumindest einen Komponente des Datenqualitätsindex die strukturierten Daten nicht verändert oder bearbeitet werden. So können lediglich die Informationen über die Daten ausgewertet werden. Mit anderen Worten können die eigentlichen Daten oder Datensätze nicht verändert oder in sonstiger Weise bearbeitet werden. Basierend auf der zumindest einen Komponente des Datenqualitätsindex kann dann der Datenqualitätsindex der Daten bestimmt werden. Somit kann eine objektive Bewertung der strukturierten Daten bereitgestellt sein. Der Datenqualitätsindex kann dann in Verbindung mit den strukturierten Daten abgespeichert werden, sodass zukünftige Benutzer diesen direkt erlangen können, ohne das obige Verfahren nochmals durchführen zu müssen. Mit anderen Worten kann mit dem obigen Verfahren ein Informationsschild (d.h. ein Index) für die Daten erlangt werden, welches die Datenqualität der Daten angibt. Ferner können strukturierte Daten als Daten charakterisiert sein, die einen Eintrag oder Wert umfassen, der einem anderen Wert oder Eintrag zugeordnet ist.The information about the data can be stored together with the data and thus made available to the method (i.e. received) at the same time as the actual data. In contrast to the actual structured data, which includes measured values or simulated data for a technical component, the information about the data includes information that describes the structured data. In other words, the information about the data can be a description and/or a characterization of the structured data. The information about the data can be evaluated to obtain or determine at least one component of the data quality index. In other words, the structured data cannot be changed or edited to determine the at least one component of the data quality index. This means that only the information about the data can be evaluated. In other words, the actual data or data sets cannot be changed or edited in any other way. The data quality index of the data can then be determined based on the at least one component of the data quality index. An objective assessment of the structured data can thus be provided. The data quality index can then be saved in conjunction with the structured data so that future users can obtain it directly without having to repeat the above process. In other words, with the above method, an information label (i.e., an index) can be obtained for the data, which indicates the data quality of the data. Further, structured data may be characterized as data that includes an entry or value that is associated with another value or entry.

Das Auswerten der Informationen der Daten kann ein Anwenden von mathematischen Maßen oder Formeln sein. Mit anderen Worten können die Informationen über die Daten Eingangswerte sein, die der Auswertung zugrunde gelegt werden. Somit kann die Auswertung eine Anwendung von mathematischen Formeln sein, die zumindest teilweise die Informationen über die Daten als Variablen umfassen. Die zumindest eine Komponente des Datenqualitätsindex kann das Ergebnis einer mathematischen Formel sein. Somit kann sichergestellt sein, dass die Informationen objektiv ausgewertet werden und dieselben Informationen über die Daten zu demselben Datenqualitätsindex führen. Folglich können die Daten objektiv bewertet werden. Das Bestimmen des Datenqualitätsindex kann bei Vorhandensein von mehreren Komponenten des Datenqualitätsindex eine mathematische Bestimmung sein. Insbesondere kann der Datenqualitätsindex ein Mittelwert aller Komponenten des Datenqualitätsindex sein. In dem Fall, bei dem nur eine Komponente des Datenqualitätsindex vorhanden ist, kann der Datenqualitätsindex der Komponente des Datenqualitätsindex entsprechen.Evaluating the information in the data can involve applying mathematical measures or formulas. In other words, the information about the data can be input values that are used as the basis for the evaluation. Thus, the evaluation can be an application of mathematical formulas that at least partially include the information about the data as variables. The at least one component of the data quality index can be the result of a mathematical formula. This can ensure that the information is evaluated objectively and that the same information about the data leads to the same data quality index. Consequently, the data can be assessed objectively. Determining the data quality index may be a mathematical determination in the presence of multiple components of the data quality index. In particular, the data quality index can be an average of all components of the data quality index. In the case where there is only one component of the data quality index, the data quality index may correspond to the component of the data quality index.

Vorzugsweise umfassen die strukturierten Daten Messdaten oder simulierte Daten in Bezug auf ein Bauteil. Das Bauteil kann beispielsweise ein technisches Bauteil eines Fahrzeugs oder einer Fahrzeugkomponente sein. Das Bauteil kann beispielsweise auf einem Prüfstand oder während einer normalen Verwendung getestet werden, um Messdaten zu erlangen. Ferner kann das Bauteil auch in einem Planungszustand vorliegen und ein Test des Bauteils simuliert werden. Im letzteren Fall können simulierte Daten erlangt werden. Mit anderen Worten können die strukturierten Daten ein technisches Bauteil betreffen und dieses Bauteil charakterisieren. Daher können die strukturierten Daten auch als technische strukturierte Daten bezeichnet werden.Preferably, the structured data includes measurement data or simulated data relating to a component. The component can be, for example, a technical component of a vehicle or a vehicle component. For example, the component can be tested on a test stand or during normal use to obtain measurement data. Furthermore, the component can also be in a planning state and a test of the component can be simulated. In the latter case, simulated data can be obtained. In other words, the structured data can relate to a technical component and characterize this component. Therefore, the structured data can also be referred to as technical structured data.

Vorzugsweise umfassen die Informationen über die Daten Metadaten und/oder berechnete Daten. Metadaten können zusätzlich zu den strukturierten Daten gespeicherte Informationen sein. Die Metadaten können automatisch bei einem Abspeichern der Daten erzeugt werden. Zusätzlich oder alternativ können die Metadaten auch händisch von einem Nutzer, welcher beispielsweise die Daten erzeugt und ablegt, hinterlegt werden. Dabei können die Metadaten beispielsweise in einem Datenwörterbuch abgespeichert sein. Der Dateneigentümer oder der Datenersteller kann Informationen über den Datensatz ausfüllen, wie z.B. Erklärungen zu Variablen, Syntaxregeln und dergleichen. Die berechneten Daten dagegen können Daten sein, die automatisch oder manuell auf Basis der strukturierten Daten selbst berechnet werden. Mit anderen Worten wird zur Erstellung der berechneten Daten keine externe Information benötigt, sondern lediglich die strukturierten Daten an sich. Dabei werden die strukturierten Daten insbesondere nicht verändert oder in anderer Weise bearbeitet. Ferner können die berechneten Daten basierend auf einer Zuordnung von Einträgen in bestimmte Zeilen und/oder Spalten der strukturierten Daten bestimmt werden. So können beispielsweise eine Varianz der Einträge in einer Spalte und/oder in einer Zeile bestimmt werden und basierend darauf berechnete Daten ermittelt werden. Ferner können die Beträge der Einträge (bei numerischen Einträgen) verglichen werden und Ausreißereinträge ermittelt werden und basierend darauf die berechneten Daten ermittelt werden.Preferably, the information about the data includes metadata and/or calculated data. Metadata can be information stored in addition to structured data. The metadata can be generated automatically when the data is saved. Additionally or alternatively, the metadata can also be stored manually by a user who, for example, creates and stores the data. The metadata can be stored in a data dictionary, for example. The data owner or the data creator can fill in information about the data set, such as variable explanations, syntax rules, and the like. The calculated data, on the other hand, can be data that is calculated automatically or manually based on the structured data itself. In other words, no external information is required to create the calculated data, but only the structured data itself. In particular, the structured data is not changed or processed in any other way. Furthermore, the calculated data can be determined based on an assignment of entries into specific rows and/or columns of the structured data. For example, a variance of the entries in a column and/or in a row can be determined and calculated data can be determined based on this. Furthermore, the amounts of the entries (for numerical entries) can be compared and outlier entries can be determined and the calculated data can be determined based on this.

Vorzugsweise umfassen die Metadaten einen Identifikator, einen Spaltennamen, einen Zeilennamen, einen Datentyp, eine Beschreibung, eine Syntaxregel, einen Beispieleintrag, notwendige Einträge, optionale Einträge, ein Freitextfeld und/oder einen Schlüssel- oder ID-Wert der Daten. Somit können die Metadaten eine Beschreibung der eigentlichen strukturierten Daten sein. Ein Identifikator kann beispielsweise angeben, was für und/oder ob ein Eintrag in der jeweiligen Zelle vorhanden ist. Ein Spaltenamen kann bezeichnen, welche Werte bzw. Einträge in der jeweiligen Spalte eingetragen sind. Beispielsweise kann eine Spalte indikativ für Geschwindigkeiten sein. Eine andere Spalte kann beispielsweise indikativ für eine Temperatur sein. In beiden Fällen können die Zeilen indikativ für die Zeit sein. Ein Zeilenname kann dafür indikativ sein, welche Einträge in einer Zeile angeordnet oder zu erwarten sind. So kann beispielsweise eine Zeile einem bestimmten Bauteil oder einem bestimmten Testdurchlauf zugeordnet sein. Ein Datentyp kann beispielsweise zwischen numerischen oder Zeicheneinträgen unterscheiden. Eine Beschreibung kann den Inhalt einer Zelle beschreiben. So kann die Beschreibung beispielsweise eine Einheit eines Eintrags angeben. Eine Syntaxregel kann beschreiben, wie der jeweilige Eintrag in der jeweiligen Zelle einzutragen ist. So kann eine Syntaxregel beispielsweise die Anzahl der Nachkommastellen beschreiben. Ferner kann die Syntaxregel beispielsweise die Darstellung eines Datums oder anderer Einträge vorgeben. Ein Beispieleintrag kann beispielsweise ein Mittelwert der üblicherweise in dieser Zelle vorhandenen Einträge sein. Alternativ kann ein Beispieleintrag auch dazu dienen einem Benutzer das manuelle Eintragen von Werten zu erleichtern. Notwendige Einträge können Einträge sein, die notwendig sind, um die zumindest eine Komponente des Datenqualitätsindex zu bestimmen. Optionale Einträge können dagegen nicht notwendig sein, um zumindest eine Komponente des Datenqualitätsindex zu bestimmen. Vielmehr kann auch ohne einen optionalen Eintrag die zumindest eine Komponente des Datenqualitätsindex bestimmt werden. Ist der optionale Eintrag dennoch vorhanden, kann die zumindest eine Komponente des Datenqualitätsindex mit höherer Genauigkeit bestimmt werden. Ob ein Eintrag notwendig oder optional ist, kann dem Dateninhaber und/oder dem Datenersteller angezeigt werden. Ein Freitextfeld kann eine weitere Beschreibung der Daten durch den Dateninhaber und/oder den Datenersteller enthalten. Somit können weitere Erklärungen oder Informationen über die Daten beigefügt sein. Der Schlüssel- oder ID-Wert der Daten kann die Daten identifizieren. So kann beispielsweise ein bestimmter Schlüssel- oder ID-Wert für immer wiederkehrende Daten verwendet werden, sodass diese auf einfache Art und Weise identifiziert werden können.Preferably, the metadata includes an identifier, a column name, a row name, a data type, a description, a syntax rule, an example entry, necessary entries, optional entries, a free text field and/or a key or ID value of the data. Thus, the metadata can be a description of the actual structured data. An identifier can, for example, indicate what and/or whether an entry is present in the respective cell. A column name can indicate which values or entries are entered in the respective column. For example, a column can be indicative of speeds. Another column can be indicative of a temperature, for example. In both cases the lines can be indicative of time. A line name can be indicative of which entries are arranged or expected in a line. For example, a line can be assigned to a specific component or a specific test run. For example, a data type can distinguish between numeric or character entries. A description can describe the contents of a cell. For example, the description can specify a unit of an entry. A syntax rule can describe how the respective entry should be entered in the respective cell. For example, a syntax rule can describe the number of decimal places. Furthermore, the syntax rule can, for example, specify the representation of a date or other entries. An example entry can, for example, be an average of the entries usually present in this cell. Alternatively, an example entry can also serve to make it easier for a user to enter values manually. Necessary entries can be entries that are necessary to determine the at least one component of the data quality index. However, optional entries may not be necessary to determine at least one component of the data quality index. Rather, the at least one component of the data quality index can be determined even without an optional entry. If the optional entry is nevertheless present, the at least one component of the data quality index can be determined with higher precision. Whether an entry is necessary or optional can be displayed to the data owner and/or the data creator. A free text field can contain a further description of the data by the data owner and/or the data creator. This means that further explanations or information about the data may be included. The key or ID value of the data can identify the data. For example, a specific key or ID value can be used for recurring data so that it can be easily identified.

Vorzugsweise umfassen die berechneten Daten eine Bestimmung gleicher Einträge und/oder Ausreißereinträge der Daten. Wie bereits oben dargelegt, können die berechneten Daten auf Basis der Daten alleine ohne weitere externe Informationen bestimmt werden. So kann beispielsweise die Varianz der Einträge berechnet bzw. bestimmt werden. Die Varianz kann später dazu genutzt werden den Qualitätsindex der Daten zu bestimmen (nähere Details dazu weiter unten). Bei der Bestimmung der berechneten Daten können die Einträge einer Spalte und/oder einer Zeile aufgetragen werden und so deren Verteilung analysiert werden. Dadurch können zum einen die Varianz der Einträge bestimmt werden und/oder Ausreißereinträge sichtbar gemacht werden. Ausreißereinträge können beispielsweise Einträge sein, die erheblich von den benachbarten Einträgen (d. h. Einträge in benachbarten Zellen) abweichen. Somit können, ohne dass externe weitere Informationen zur Verfügung stehen, die berechneten Daten lediglich auf Basis der strukturierten Daten bestimmt bzw. berechnet werden.The calculated data preferably includes a determination of identical entries and/or outlier entries in the data. As already explained above, the calculated data can be determined based on the data alone without any additional external information. For example, the variance of the entries can be calculated or determined. The variance can later be used to determine the quality index of the data (more details on this below). When determining the calculated data The entries of a column and/or a row can be plotted and their distribution can be analyzed. This allows the variance of the entries to be determined and/or outlier entries to be made visible. For example, outlier entries can be entries that differ significantly from neighboring entries (that is, entries in adjacent cells). This means that the calculated data can only be determined or calculated on the basis of the structured data, without additional external information being available.

Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Rückverfolgbarkeitswert, welcher basierend auf einem Datenerstellungswert, welcher insbesondere basierend auf einer Datenquelle eines Datenkontakts und/oder eines Erstellungsdatums bestimmt ist, und einem Aktualisierungswert bestimmt wird. Die Komponente Rückverfolgbarkeitswert kann alle zentralen Informationen zu den strukturierten Daten wie beispielsweise, ob die Datenquelle und ein Ansprechpartner bekannt sind, umfassen, um gegebenenfalls weitere Fragen klären zu können. Der Rückverfolgbarkeitswert kann beispielsweise ein Wert zwischen 0 und 1 sein (d.h. Rückverfolgbarkeitswert ∈ [0;1]). Der Rückverfolgbarkeitswert kann beispielsweise auf einem Datenerstellungswert oder Datenerstellungsverfolgungswert bestimmt werden. Der Datenerstellungswert kann ein Wert zwischen 0 und 1 sein (d.h. Datenerstellungswert ∈ [0 ;1]). Der Datenerstellungswert kann folgende weiteren Subkomponenten aufweisen: Q u e l l e = { 0, D a t e n w ö r t e r b u c h D D 2 T a b e l l e D a t e n _ Q u e l l e n _ N a m e   i s t   l e e r 1, D a t e n q u e l l e n n a m e   i s t   n i c h t   l e e r

Figure DE102022207482B4_0001
Preferably, the at least one component of the data quality index comprises a traceability value, which is determined based on a data creation value, which is determined in particular based on a data source of a data contact and/or a creation date, and an update value. The traceability value component can include all central information about the structured data, such as whether the data source and a contact person are known, in order to be able to clarify further questions if necessary. For example, the traceability value can be a value between 0 and 1 (ie traceability value ∈ [0;1]). The traceability value can be determined, for example, on a data creation value or data creation tracking value. The data creation value can be a value between 0 and 1 (i.e. data creation value ∈ [0 ;1]). The data creation value can have the following additional subcomponents: Q u e l l e = { 0, D a t e n w ö r t e r b u c H D D 2 T a b e l l e D a t e n _ Q u e l l e n _ N a m e i s t l e e r 1, D a t e n q u e l l e n n a m e i s t n i c H t l e e r
Figure DE102022207482B4_0001

Abhängig von den Randbedingungen kann der Wert für Quelle also 0 oder 1 sein. K o n t a k t = { 0, D a t e n w ö r t e r b u c h D D 2 T a b e l l e E i g e n t ü m e r   d e r   G e s c h ä f t s d a t e n U N D E D V _ V e r a n t w o r t l i c h e r U N D   z u s ä t z l i c h e r   K o n t a k t   i s t   l e e r 1, E i g e n t ü m e r   d e r   G e s c h ä f t s d a t e n   O D E R   E D V V e r a n t w o r t l i c h e r O D E R   z u s ä t z l i c h e r   K o n t a k t   i s t   n i c h

Figure DE102022207482B4_0002
Depending on the boundary conditions, the value for source can be 0 or 1. K O n t a k t = { 0, D a t e n w ö r t e r b u c H D D 2 T a b e l l e E i G e n t u m e r d e r G e s c H ä f t s d a t e n U N D E D v _ v e r a n t w O r t l i c H e r U N D e.g u s ä t e.g l i c H e r K O n t a k t i s t l e e r 1, E i G e n t u m e r d e r G e s c H ä f t s d a t e n O D E R E D v v e r a n t w O r t l i c H e r O D E R e.g u s ä t e.g l i c H e r K O n t a k t i s t n i c H
Figure DE102022207482B4_0002

Abhängig von den Randbedingungen kann der Wert für Kontakt also 0 oder 1 sein. D a t e n e r s t e l l u n g = { 0, P W C   Q u e r y   S Q L Q u e r y 1. s q l E r s t e l l u n g   i s t   l e e r 1, E r s t e l l u n g   i s t   n i c h t   l e e r

Figure DE102022207482B4_0003
Depending on the boundary conditions, the value for contact can be 0 or 1. D a t e n e r s t e l l u n G = { 0, P W C Q u e r y S Q L Q u e r y 1. s q l E r s t e l l u n G i s t l e e r 1, E r s t e l l u n G i s t n i c H t l e e r
Figure DE102022207482B4_0003

Abhängig von den Randbedingungen kann der Wert für Datenerstellung also 0 oder 1 sein. Mit anderen Worten kann bei dem Wert für Datenerstellung bestimmt werden, ob es Informationen über die Erstellung der Daten gibt oder nicht.Depending on the boundary conditions, the value for data creation can be 0 or 1. In other words, the data creation value can be used to determine whether or not there is information about the creation of the data.

Zur Bestimmung des Datenerstellungswerts können die Werte für die Quelle, den Kontakt und die Datenerstellung addiert und das Ergebnis durch drei geteilt werden.To determine the data creation value, add the source, contact, and data creation values and divide the result by three.

Ferner kann ein Aktualisierungswert den Wert 0 oder 1 wie folgt annehmen: A k t u a l i s i e r u n g s w e r t = { 0, U n t e r s c h i e d   v o n   ( H e u t e , l e t z t e  Ä n d e r u n g ) i n   T a g e n > 365 1, U n t e r s c h i e d   v o n   ( H e u t e , l e t z t e  Ä n d e r u n g ) i n   T a g e n 365

Figure DE102022207482B4_0004
Furthermore, an update value can take the value 0 or 1 as follows: A k t u a l i s i e r u n G s w e r t = { 0, U n t e r s c H i e d v O n ( H e u t e , l e t e.g t e Ä n d e r u n G ) i n T a G e n > 365 1, U n t e r s c H i e d v O n ( H e u t e , l e t e.g t e Ä n d e r u n G ) i n T a G e n 365
Figure DE102022207482B4_0004

Der Datenerstellungswert kann dann mit dem Aktualisierungswert addiert und das Ergebnis wiederum durch zwei geteilt werden. Das Ergebnis entspricht dann dem Rückverfolgbarkeitswert.The data creation value can then be added to the update value and the result can again be divided by two. The result then corresponds to the traceability value.

Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Verwendungswert, welcher basierend auf einer verstrichenen Zeit seit der letzten Verwendung der Daten bestimmt wird. Die Komponente des Verwendungswerts kann anzeigen, ob die Daten bzw. der Datensatz in einem definierten Zeitraum mindestens einmal von einem Nutzer verwendet wurde oder nicht. Dies ist der Tatsache geschuldet, dass immer mehr unterschiedliche Datensätze zur Verfügung gestellt werden, anstatt zu prüfen, welche Datensätze noch regelmäßig genutzt werden. Somit kann eine häufige Verwendung der Daten darauf hinweisen, dass der Datensatz aktuell ist und auch anderen Projekten zugrunde gelegt wird. Der Verwendungswert kann ein Wert zwischen 0 und 1 sein (d.h. Verwendungswerts ∈ [0;1]). Der Verwendungswert kann wie folgt bestimmt werden: V e r w e n d u n g s w e r t = { 0, Unterschied von  ( HEUTE , letzte Ausführung ) in Tagen > 90 1, Unterschied von  ( HEUTE , letzte Ausführung ) in Tagen 90

Figure DE102022207482B4_0005
Preferably, the at least one component of the data quality index includes a usage value that is determined based on an elapsed time since the data was last used. The usage value component can indicate whether or not the data or data set was used at least once by a user in a defined period of time. This is due to the fact that more and more different data sets are being made available instead of checking which data sets are still being used regularly. Frequent use of the data can therefore indicate that the data set is current and is also used as a basis for other projects. The usage value can be a value between 0 and 1 (ie usage value ∈ [0;1]). The usage value can be determined as follows: v e r w e n d u n G s w e r t = { 0, Difference from ( TODAY , Last Run ) in days > 90 1, Difference from ( TODAY , Last Run ) in days 90
Figure DE102022207482B4_0005

Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Informationsgehaltswert, welcher basierend auf einem Verhältnis benötigter Einträge und vorhandener Einträge der Daten sowie einem Verhältnis der verschiedenen Einträge bestimmt wird. Das Verhältnis benötigter Einträge und vorhandener Einträge kann als prc bezeichnet sein. Das Verhältnis der verschiedenen Einträge kann als pve bezeichnet sein. Das Verhältnis prc kann ein Verhältnis aus der Anzahl der erwarteten Spaltendateneinträgen zu der Anzahl der Spalten umfassen. Das Verhältnis pve kann ein Verhältnis aus der Anzahl von verschiedenen Einträge innerhalb einer Spalte oder Zeile zu der Anzahl der Zellen einer Spalte oder Zeile des Datensatzes beschreiben. Mit anderen Worten ist die Qualität eines Datensatzes besser, wenn zwingend erforderliche Daten vorhanden sind. Demgegenüber müssen optionale Daten lediglich wahlweise da sein. Der Informationsgehaltswert kann ein Wert zwischen 0 und 1 sein (d.h. Informationsgehaltswert ∈ [0 ;1]). Der Informationsgehaltswert kann basierend auf dem Verhältnis prc und pve bestimmt werden. Insbesondere kann der Informationsgehaltswert das Ergebnis einer Addition von prc und pve geteilt durch zwei sein. Die Verhältnisse prc und pve können wie folgt bestimmt werden:

  • Der Wert für prc kann ein Wert zwischen 0 und 1 sein (d.h. prc ∈ [0;1]). p r c = ( 1 # Spalten ohne Mussfeldinfo # alle Spalten des Datensatzes ) ( # Mussfeldspalten des Datensatzes # alle Spalten des Datensatzes )
    Figure DE102022207482B4_0006
  • Die Informationen, ob eine Spalte eine Mussfeldinfo aufweist kann in dem Datenkatalog gespeichert sein.
  • Der Wert für pve kann ein Wert zwischen 0 und 1 sein (d.h. pve ∈ [0;1]). p v e = 1 #   S p a l t e n   d e s   D a t e n s a t z e s   m i t   d e m s e l b e n   E i n t r a g # a l l e   S p a l t e n   d e s   D a t e n s a t z e s
    Figure DE102022207482B4_0007
Preferably, the at least one component of the data quality index comprises an information content value which is determined based on a ratio of required entries and existing entries of the data as well as a ratio of the various entries. The ratio of required entries and existing entries can be denoted as prc. The ratio of the different entries can be referred to as pve. The ratio prc may include a ratio of the number of expected column data entries to the number of columns. The ratio pve can describe a ratio of the number of different entries within a column or row to the number of cells in a column or row of the data set. In other words, the quality of a data set is better when mandatory data is present. In contrast, optional data only has to be there optionally. The information content value can be a value between 0 and 1 (ie information content value ∈ [0 ;1]). The information content value can be determined based on the ratio prc and pve. In particular, the information content value can be the result of adding prc and pve divided by two. The ratios prc and pve can be determined as follows:
  • The value for prc can be a value between 0 and 1 (i.e. prc ∈ [0;1]). p r c = ( 1 # Columns without mandatory field info # all columns of the data set ) ( # Required field columns of the data record # all columns of the data set )
    Figure DE102022207482B4_0006
  • The information as to whether a column has mandatory field information can be stored in the data catalog.
  • The value for pve can be a value between 0 and 1 (ie pve ∈ [0;1]). p v e = 1 # S p a l t e n d e s D a t e n s a t e.g e s m i t d e m s e l b e n E i n t r a G # a l l e S p a l t e n d e s D a t e n s a t e.g e s
    Figure DE102022207482B4_0007

Das Verhältnis der benötigten Spalten wird mit dem Verhältnis der Varianz der Einträge addiert und das Ergebnis davon durch zwei geteilt, um den Informationsgehaltswert zu erlangen.The ratio of the required columns is added to the ratio of the variance of the entries and the result of this is divided by two to obtain the information content value.

Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Vollständigkeitswert, welcher basierend auf einem Verhältnis vorhandener Einträge zu einer Anzahl der Einträge und der benötigten Einträge bestimmt wird. Der Vollständigkeitswert gibt an, wie viele fehlende Werte bzw. Einträge in den Spalten des Datensatzes bzw. der Daten vorhanden sind. Dabei wird unterschieden, in welchen Spalten fehlende Werte auftreten können und in welchen Spalten Dateneinträge zu erwarten sind.Preferably, the at least one component of the data quality index comprises a completeness value, which is determined based on a ratio of existing entries to a number of entries and required entries. The completeness value indicates how many missing values or entries there are in the columns of the data record or data. A distinction is made between which columns missing values can occur and in which columns data entries are to be expected.

Der Vollständigkeitswert kann ein Wert zwischen 0 und 1 sein (Vollständigkeitswert ∈[0 ;1]). Der Vollständigkeitswert kann als comp bezeichnet sein und wie folgt bestimmt werden: c o m p = ( c o m p   f ü r   S p a l t e 1 + + c o m p   f ü r   S p a l t e l e t z t e   S p a l t e   d e s   D a t e n s a t z e s ) ( # S p a l t e n   d e s   D a t e n s a t z e s # S p a l t e n   m i t   M u s s f e l d = f a l s c h )

Figure DE102022207482B4_0008
The completeness value can be a value between 0 and 1 (completeness value ∈[0 ;1]). The completeness value can be denoted comp and can be determined as follows: c O m p = ( c O m p f u r S p a l t e 1 + + c O m p f u r S p a l t e l e t e.g t e S p a l t e d e s D a t e n s a t e.g e s ) ( # S p a l t e n d e s D a t e n s a t e.g e s # S p a l t e n m i t M u s s f e l d = f a l s c H )
Figure DE102022207482B4_0008

Wobei der Wert „#Spalten mit Mussfeld = falsch“ die Anzahl der Spalten angibt, in denen ein Wert erwartet wird bzw. in denen ein Wert stehen sollte aber kein Eintrag vorhanden ist.The value “#Columns with mandatory field = false” indicates the number of columns in which a value is expected or in which a value should be but there is no entry.

Wobei comp für Spalte i = ( 1 S p a l t e i s Mussfeldeintrag ) ( # e i n g e f ü g t e   W e r t e   d e r   S p a l t e i A n z a h l   v o n   Z e i l e n )

Figure DE102022207482B4_0009
Where comp for column i = ( 1 S p a l t e i s Mandatory field entry ) ( # e i n G e f u G t e W e r t e d e r S p a l t e i A n e.g a H l v O n Z e i l e n )
Figure DE102022207482B4_0009

Wobei S p a l t e i s Mussfeldeintrag = { 0, Mussfeld = wahr keinen comp für Spalte i  Berechnung ( schreibe " "  in dem Datenqualitätsmodel ) , Mussfeld = falsch 1 ,Mussfeld = keine Informationen

Figure DE102022207482B4_0010
wobei
i = 1, ..., p.
p := letzte Spalte des Datensatzes
# := Anzahl von
Die obigen Variablen gelten für alle hier angeführten Formeln und Darstellungen.Where S p a l t e i s Mandatory field entry = { 0, Mandatory field = true no comp for column i calculation ( write " " in the data quality model ) , Mandatory field = incorrect 1 ,Must field = no information
Figure DE102022207482B4_0010
where
i = 1, ..., p.
p := last column of the data set
# := Number of
The variables above apply to all formulas and representations listed here.

Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Verständlichkeitswert, welcher basierend auf einem Verhältnis von vorhandenen Metadaten zu benötigten Metadaten bestimmt wird. Der Verständlichkeitswert kann ein Verhältnis darstellen, wie viel der geforderten Metadateninformationen pro Spalte geliefert werden. Dazu kann ein Datenkatalog beispielsweise an einer zentralen Stelle bereitgestellt sein, um Daten inhaltlich zu beschreiben. Bei den Metadaten kann es sich um die oben definierten Metadaten handeln. Der Verständlichkeitswert kann einen Wert zwischen 0 und 1 annehmen (Verständlichkeitswert ∈[0;1]). Der Verständlichkeitswert kann als understand bezeichnet sein und wie folgt bestimmt werden: u n d e r s t a n d = u n d e r s t a n d   f u ¨ r   S p a l t e 1 + + u n d e r s t a n d   f u ¨ r   S p a l t e l e t z t e   S p a l t e   d e s   D a t e n s a t z e s #   a l l e   S p a l t e n   d e s   D a t e n s a t z e s

Figure DE102022207482B4_0011
u n d e r s t a n d   f u ¨ r   S p a l t e i = #   v e r f u ¨ g b a r e   M e t a d a t e n   i n   D a t e n k a t a l o g   d e r   S p a l t e i #   n o t w e n d i g e   M e t a d a t e n   i n   D a t e n k a t a l o g
Figure DE102022207482B4_0012
Preferably, the at least one component of the data quality index comprises an understandability value, which is determined based on a ratio of existing metadata to required metadata. The understandability score can represent a ratio of how much of the required metadata information is provided per column. For this purpose, a data catalog can, for example, be provided in a central location to describe the content of data. The metadata can be the metadata defined above. The comprehensibility value can take a value between 0 and 1 (comprehensibility value ∈[0;1]). The comprehensibility value can be referred to as understand and can be determined as follows: u n d e r s t a n d = u n d e r s t a n d f u ¨ r S p a l t e 1 + + u n d e r s t a n d f u ¨ r S p a l t e l e t e.g t e S p a l t e d e s D a t e n s a t e.g e s # a l l e S p a l t e n d e s D a t e n s a t e.g e s
Figure DE102022207482B4_0011
u n d e r s t a n d f u ¨ r S p a l t e i = # v e r f u ¨ G b a r e M e t a d a t e n i n D a t e n k a t a l O G d e r S p a l t e i # n O t w e n d i G e M e t a d a t e n i n D a t e n k a t a l O G
Figure DE102022207482B4_0012

Hinweis: Erforderliche Metadaten im Datenkatalog umfassen: ID; Spaltenname; Tabellenname; Datentyp; Beschreibung_Erläuterung; Syntaxregel; Beispiel_Wert; Muss-Feld; Freitext-Feld; Key oder ID_Wert.Note: Required metadata in the data catalog includes: ID; column name; tablename; data type; description_explanation; syntax rule; example_value; mandatory field; free text field; Key or ID_value.

Vorzugsweise umfasst die zumindest eine Komponente des Datenqualitätsindex einen Genauigkeitswert, welcher basierend auf einem Verhältnis von syntaktisch korrekten Einträgen zu der Anzahl der Einträge und/oder einem Verhältnis von möglichen Ausreißereinträgen zu der Anzahl der Einträge bestimmt wird. Der Genauigkeitswert kann mögliche Ausreißer und ein Verhältnis von syntaktisch korrekten Spalten definieren. Der Genauigkeitswert ist insbesondere nur für numerische Einträge anwendbar. Der Genauigkeitswert kann ein Wert zwischen 0 und 1 sein (Genauigkeitswert ∈[0;1]). Der Genauigkeitswert kann auch als acc bezeichnet sein und basierend auf einem Verhätnis der syntaktisch korrekten Einträge der Syntaxspalten pac und einem Verhältnis der Spalten mit potenziellen Ausreißern outlier bestimmt werden. Dabei kann pac und outlier ∈[0;1] sein und wie folgt bestimmt werden:

  • • Verhältnis der syntaktisch korrekten Werte der Syntaxspalten pac ∈ [0;1] p a c = ( p a c   v o n   S p a l t e i + + p a c   v o n   S p a l t e p ) ( #   S p a l t e n   d e s   D a t e n s a t z e s #   S p a l t e n   m i t   S y n t a x r e g e l = f a l s c h )
    Figure DE102022207482B4_0013
    pac f u ¨ S p a l t e i = ( 1 S p a l t e i s Sytaxregeleintrag ) ( # s y n t a k t i s c h   k o r r e k t e   E i n t r a ¨ g e   d e r   S p a l t e i A n z a h l   v o n   Z e i l e n )
    Figure DE102022207482B4_0014
    wobei S p a l t e i s Sytaxregeleintrag = { 0, Syntaxregel = wahr kein pac f u ¨ S p a l t e i  Berechung ( schreibe " " in dem Datenqualit a ¨ tsmodel ) , Syntaxregel = falsch 1, Syntaxregel = keine Information
    Figure DE102022207482B4_0015
  • • Verhältnis der Spalten mit potenziellen Ausreißern (Ausreißerwert) outlier ∈[0;1] o u t l i e r = ( 1 ( #   o u t l i e r s   v o n   n u m e r i s c h e r   S p l a t e 1 + + # o u t l i e r s   v o n   n u m e r i s c h e r   S p l a t e l e t z t e   n u m e r i s c h e   S p l a t e A n z a h l   v o n   n u m e r i s c h e n   S p l a t e n )
    Figure DE102022207482B4_0016
    o u t l i e r   v o n   S p l a t e i = #   o u t l i e r s   v o n   n u m e r i s c h e r   S p l a t e i A n z a h l   v o n   R e i h e n
    Figure DE102022207482B4_0017
Preferably, the at least one component of the data quality index comprises an accuracy value which is determined based on a ratio of syntactically correct entries to the number of entries and/or a ratio of possible outlier entries to the number of entries. The precision value can define possible outliers and a ratio of syntactically correct columns. In particular, the precision value is only applicable for numerical entries. The precision value can be a value between 0 and 1 (accuracy value ∈[0;1]). The precision value can also be referred to as acc and can be determined based on a ratio of the syntactically correct entries of the syntax columns pac and a ratio of the columns with potential outliers. Here pac and outlier can be ∈[0;1] and can be determined as follows:
  • • Ratio of the syntactically correct values of the syntax columns pac ∈ [0;1] p a c = ( p a c v O n S p a l t e i + + p a c v O n S p a l t e p ) ( # S p a l t e n d e s D a t e n s a t e.g e s # S p a l t e n m i t S y n t a x r e G e l = f a l s c H )
    Figure DE102022207482B4_0013
    pac f u ¨ r S p a l t e i = ( 1 S p a l t e i s syntax rule entry ) ( # s y n t a k t i s c H k O r r e k t e E i n t r a ¨ G e d e r S p a l t e i A n e.g a H l v O n Z e i l e n )
    Figure DE102022207482B4_0014
    where S p a l t e i s syntax rule entry = { 0, Syntax rule = true no pac f u ¨ r S p a l t e i Calculation ( write " " in the data quality a ¨ tsmodel ) , Syntax rule = incorrect 1, Syntax rule = no information
    Figure DE102022207482B4_0015
  • • Ratio of columns with potential outliers (outlier value) outlier ∈[0;1] O u t l i e r = ( 1 ( # O u t l i e r s v O n n u m e r i s c H e r S p l a t e 1 + + # O u t l i e r s v O n n u m e r i s c H e r S p l a t e l e t e.g t e n u m e r i s c H e S p l a t e A n e.g a H l v O n n u m e r i s c H e n S p l a t e n )
    Figure DE102022207482B4_0016
    O u t l i e r v O n S p l a t e i = # O u t l i e r s v O n n u m e r i s c H e r S p l a t e i A n e.g a H l v O n R e i H e n
    Figure DE102022207482B4_0017

Ferner kann eine Ausreißer-Schwelle definiert sein, ab welcher ein Wert als Ausreißer definiert wird. Beispielsweise können zumindest drei Verfahren zur Bestimmung von Ausreißern bereitgestellt werden und ein Ausreißer bestimmt werden, wenn drei von drei Verfahren einen Datenpunkt als Ausreißer erkennen. Es ist insbesondere nur möglich, Ausreißer für numerische Spalten zu berechnen.Furthermore, an outlier threshold can be defined, above which a value is defined as an outlier. For example, at least three methods for determining outliers can be provided and an outlier can be determined if three out of three methods recognize a data point as an outlier. In particular, it is only possible to calculate outliers for numeric columns.

Syntaktisch korrekte Werte können beispielsweise nur positive Werte sein. Ferner kann die Syntax festlegen, dass in einer Zelle nur Werte zwischen 2 und 5 zu erwarten sind, und alles was nicht in diesen Zahlenbereich hineinfällt, wird mit einem Wert 0 definiert. Die Ausreißer können beispielsweise mit Machine Learning-Methoden bestimmt werden. Hierbei kann ein Algorithmus trainiert werden, basierend auf Eingangsdaten Ausgangsdaten auszugeben, die angeben, ob in den Eingangsdaten Ausreißer vorhanden sind. Dazu kann der Algorithmus im Vorhinein mit einem Trainingsdatensatz trainiert werden. Damit kann die Zuverlässigkeit der Bestimmung von Ausreißern erhöht sein.For example, syntactically correct values can only be positive values. Furthermore, the syntax can specify that only values between 2 and 5 are to be expected in a cell, and everything that does not fall within this number range is defined with a value 0. The outliers can be determined using machine learning methods, for example. Here, an algorithm can be trained to output output data based on input data that indicates whether there are outliers in the input data. To do this, the algorithm can be trained in advance with a training data set. This can increase the reliability of determining outliers.

Somit kann jede Komponente des Datenqualitätsindex durch eine definierte Formel berechnet werden. Jedes Komponentenergebnis kann standardisiert sein und den gleichen Wertebereich wie alle anderen Komponentenergebnisse aufweisen. Dieser Wertebereich liegt vorzugsweise zwischen 0 und 1. 0 kann bedeuten, dass diese Komponente ein schlechtes Ergebnis hat und 1 kann bedeuten, dass diese Komponente ein sehr gutes Ergebnis hat. Beispielsweise kann die Komponente des Verwendungswerts einen Wert von 0,0 aufweisen, was ein schlechtes Ergebnis ist. Die Komponente des Genauigkeitswerts kann einen Wert von 0,8, welcher nahe an 1 liegt, aufweisen, was ein guter Wert ist. Der Datenqualitätsindex kann der Durchschnitt der Komponentenwerte sein und aus der Summe der einzelnen Komponentenwerte geteilt durch die Anzahl der Komponenten bestimmt werden.Thus, each component of the data quality index can be calculated by a defined formula. Each component result can be standardized and have the same range of values as all other component results. This range of values is preferably between 0 and 1. 0 can mean that this component has a bad result and 1 can mean that this component has a very good result. For example, the usage value component may have a value of 0.0, which is a poor result. The component of the accuracy value can have a value of 0.8, which is close to 1, which is a good value. The data quality index can be the average of the component values and can be determined from the sum of the individual component values divided by the number of components.

Vorzugsweise wird der Datenqualitätsindex an einem zentralen Datenspeicherort bestimmt. Somit kann eine Vielzahl von Daten durch eine lokale Stelle analysiert werden und mit einem Datenqualitätsindex versehen werden. Alternativ kann der Datenqualitätsindex auch dezentral beispielsweise am Ort der Datenspeicherung und/oder Datenerzeugung bestimmt werden. Dadurch können zu übertragende Datenmengen reduziert werden, da die Daten zum Zwecke der Bestimmung des Datenqualitätsindex nicht übertragen werden müssen.Preferably, the data quality index is determined at a central data storage location. This means that a variety of data can be analyzed by a local body and provided with a data quality index. Alternatively, the data quality index can also be determined decentrally, for example at the location of data storage and/or data generation. This allows the amount of data to be transferred to be reduced since the data does not have to be transferred for the purpose of determining the data quality index.

Vorzugsweise liegen die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex in demselben Wertebereich, vorzugsweise in einem Bereich zwischen 0 und 1. Damit sind die Werte der Komponenten des Datenqualitätsindex vergleichbar und nicht künstlich gewichtet.The values obtained for several or all components of the data quality index are preferably in the same value range, preferably in a range between 0 and 1. The values of the components of the data quality index are therefore comparable and not artificially weighted.

Vorzugsweise werden die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex addiert und das Ergebnis durch die Anzahl der Komponenten des Datenqualitätsindex dividiert, um den Datenqualitätsindex zu erlangen. Mit anderen Worten kann der Datenqualitätsindex der Mittelwert aller Komponenten des Datenqualitätsindex sein. Somit können alle Komponenten des Datenqualitätsindex gleich gewichtet werden und denselben Einfluss auf den Datenqualitätsindex haben.Preferably, the obtained values for several or all components of the data quality index are added and the result is divided by the number of components of the data quality index to obtain the data quality index. In other words, the data quality index can be the average of all components of the data quality index. This means that all components of the data quality index can be weighted equally and have the same influence on the data quality index.

Vorzugsweise werden die einzelnen Komponenten des Datenqualitätsindex bei der Bestimmung des Datenqualitätsindex mit einem Faktor, insbesondere zwischen 0 und 10, multipliziert, um alle oder einzelne Komponenten Datenqualitätsindex zu gewichten. Jede Komponente des Datenqualitätsindex kann mit einem Gewichtungsfaktor λ ≥ 0 gewichtet werden. Der Wert des Gewichtungsfaktors λ kann eine beliebige positive Zahl sein. Ein Wert nahe 0 bedeutet eine geringere Gewichtung der entsprechenden Komponente und damit eine geringere Auswirkung. Ein Wert von 1 bedeutet, dass die Komponente nicht gewichtet wird, da die Multiplikation von etwas mit 1 ein neutrales Ergebnis in Bezug auf die Gewichtung liefert. Ein Wert > 1 bedeutet, dass die entsprechende Komponente einen größeren Einfluss bei der Bestimmung des Datenqualitätsindex hat. Theoretisch kann der Gewichtungsfaktor nicht begrenzt sein. Vorzugsweise liegt der Gewichtungsfaktor jedoch in einem Zahlenintervall zwischen 0 und 10. Somit kann die Übersichtlichkeit und die Vergleichbarkeit bewahrt werden. Somit können für einen Bearbeiter der Daten besonders wichtige Faktoren (d.h. Komponenten des Datenqualitätsindex) stärker gewichtet werden als andere. Damit kann der Datenqualitätsindex individuell auf Bedürfnisse und/oder Anforderungen des Verwenders der Daten angepasst werden.When determining the data quality index, the individual components of the data quality index are preferably multiplied by a factor, in particular between 0 and 10, in order to weight all or individual components of the data quality index. Each component of the data quality index can be weighted with a weighting factor λ ≥ 0. The value of the weighting factor λ can be any positive number. A value close to 0 means a lower weighting of the corresponding component and therefore a smaller impact. A value of 1 means that the component is not weighted because multiplying something by 1 gives a neutral result in terms of weighting. A value > 1 means that the corresponding component has a greater influence in determining the data quality index. Theoretically, the weighting factor cannot be limited. However, the weighting factor is preferably in a numerical interval between 0 and 10. This allows clarity and comparability to be maintained. This means that factors that are particularly important for a data processor (ie components tens of the data quality index) are weighted more heavily than others. This means that the data quality index can be individually adapted to the needs and/or requirements of the data user.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Computerprogramm mit Programmcode bereitgestellt, der, wenn er auf einer Recheneinheit ausgeführt wird, dazu ausgestaltet ist, das obige Verfahren auszuführen. Das Computerprogramm kann in einem beliebigen Code vorliegen, insbesondere in einem Code, der für die Analyse von Datensätzen geeignet ist. Gemäß einem weiteren Aspekt ist die Erfindung auf ein computerlesbares Medium gerichtet, welches ein oben definiertes Computerprogramm umfasst. Bei dem computerlesbaren Medium kann es sich um ein beliebiges digitales Datenspeichergerät handeln, wie z.B. einen USB-Stick, eine Festplatte, eine CD-ROM, eine SD-Karte oder eine SSD-Karte. Natürlich muss das Computerprogramm nicht auf einem solchen computerlesbaren Medium gespeichert sein, um einem Kunden zur Verfügung gestellt zu werden, sondern kann auch über das Internet bezogen werden.According to a further aspect of the present invention, a computer program is provided with program code which, when executed on a computing unit, is designed to carry out the above method. The computer program may be in any code, particularly code suitable for analyzing data sets. According to a further aspect, the invention is directed to a computer-readable medium comprising a computer program as defined above. The computer-readable medium can be any digital data storage device, such as a USB flash drive, hard drive, CD-ROM, SD card, or SSD card. Of course, the computer program does not have to be stored on such a computer-readable medium in order to be made available to a customer, but can also be obtained via the Internet.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Steuereinheit bereitgestellt, die dazu ausgestaltet ist, das obige Verfahren auszuführen. Die Steuereinheit kann dabei eine computerähnliche Vorrichtung sein, die einen Prozessor und Speicherelemente aufweist. Beispielsweise kann eine solche Steuereinheit in einem Prüfstand vorgesehen sein, um erfasste Messdaten direkt zu analysieren und mit einem Datenqualitätsindex zu versehen. Ferner ist es denkbar, dass eine Steuereinheit in einer Simulationsmaschine vorgesehen ist, um simulierten Ergebnissen einen Datenqualitätsindex zuzufügen. Alternativ oder zusätzlich kann die Steuereinheit in einem Computer bereitgestellt sein. Ein solcher Computer kann beispielsweise bei der Entwicklung von Bauteilen, insbesondere in der Fahrzeugindustrie, genutzt werden, um Bauteile auszusortieren, die auf Basis von Daten mit einem bestimmten Datenqualitätsindex entwickelt worden sind. Somit wird der Datenqualitätsindex in der Entwicklung genutzt, um Bauteile auszusortieren und/oder vorzusortieren und/oder auszuwählen. Ferner ist denkbar, dass die Steuereinheit eingesetzt wird, um einen Nachweis zu führen, auf welcher Datengrundlage ein bestimmtes Bauteil entwickelt worden ist. Somit können auch im Nachhinein beispielswiese Haftungsfragen oder dergleichen geklärt werden. Somit kann das obige Verfahren dazu genutzt werden technische Bauteile hinsichtlich ihrer Datengrundlage zu bewerten und insbesondere basierend auf dieser Bewertung auszuwählen.According to a further aspect of the present invention, a control unit designed to carry out the above method is provided. The control unit can be a computer-like device that has a processor and memory elements. For example, such a control unit can be provided in a test stand in order to directly analyze recorded measurement data and provide it with a data quality index. Furthermore, it is conceivable that a control unit is provided in a simulation machine in order to add a data quality index to simulated results. Alternatively or additionally, the control unit can be provided in a computer. Such a computer can be used, for example, in the development of components, especially in the vehicle industry, to sort out components that were developed on the basis of data with a specific data quality index. The data quality index is therefore used in development to sort out and/or pre-sort and/or select components. It is also conceivable that the control unit is used to provide evidence of the data basis on which a specific component was developed. This means that liability issues or the like can also be clarified retrospectively. The above method can therefore be used to evaluate technical components with regard to their data basis and, in particular, to select them based on this evaluation.

Ferner ist die vorliegende Erfindung auf eine Verwendung des obigen Verfahrens gerichtet, um einen Prototypen eines technischen Bauteils aus einer Vielzahl von Prototypen auszuwählen. Mit anderen Worten können eine Vielzahl von Prototypen basierend auf unterschiedlichen Daten hergestellt werden und zu einem späteren Zeitpunkt, wenn feststeht, welcher Datenqualitätsindex von dem Prototyp gefordert wird, auf Basis des Datenqualitätsindex ausgewählt werden. Somit bietet sich auch während einem Entwicklungsprozess die Möglichkeit, basierend auf der Datenqualität ein jeweiliges technisches Bauteil auszuwählen.Furthermore, the present invention is directed to using the above method to select a prototype of a technical component from a plurality of prototypes. In other words, a variety of prototypes can be produced based on different data and selected based on the data quality index at a later point in time when it is clear which data quality index is required by the prototype. This also offers the opportunity during a development process to select a respective technical component based on the data quality.

In der Beschreibung wird auf Spalten und/oder Zeilen der strukturierten Daten Bezug genommen, hierbei können die Begriffe Spalten und Zeilen beliebig ausgetauscht werden. Bei den strukturierten Daten kann es sich beispielswiese um in einer Tabellenkalkulation eingetragene Daten handeln. Hierbei kann ein Eintrag in einer Zelle eingetragen sein, wobei die Zelle eindeutig durch einen Spaltenwert und einen Zeilenwert bestimmbar ist. Wird auf eine gesamte Spalte oder Zeile verwiesen, sind alle Zellen und ggf. darin eingetragenen Einträge gemeint, die in der Spaltenreihe oder Zeilenreihe liegen.The description refers to columns and/or rows of the structured data; the terms columns and rows can be interchanged as desired. The structured data can, for example, be data entered in a spreadsheet. An entry can be entered in a cell, whereby the cell can be clearly determined by a column value and a row value. If reference is made to an entire column or row, this refers to all cells and any entries entered therein that are in the row of columns or rows.

Einzelne Merkmale von Ausführungsformen können mit anderen Merkmalen oder anderen Ausführungsform kombiniert werden und so neue Ausführungsformen bilden. Die im Zusammenhang mit den einzelnen Merkmalen genannten Vorteile und Ausgestaltungen gelten analog auch für die neuen Ausführungsformen. Vorteile und Ausgestaltungen, die in Verbindung mit der Vorrichtung beschrieben sind, gelten analog auch für das Verfahren und andersherum.Individual features of embodiments can be combined with other features or other embodiments to form new embodiments. The advantages and refinements mentioned in connection with the individual features also apply analogously to the new embodiments. Advantages and refinements that are described in connection with the device also apply analogously to the method and vice versa.

Im Folgenden werden Ausführungsformen der vorliegenden Erfindung anhand von den beigefügten Figuren beispielhaft beschrieben.

  • 1 zeigt ein schematisches Diagramm, welches einzelne Komponenten des Datenqualitätsindex gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • 2 ist ein schematisches Diagramm, welches Komponenten des Datenqualitätsindex zusammen mit Subkomponenten der Komponenten des Datenqualitätsindex gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • 3 ist ein Ablaufdiagramm, welches den Ablauf eines Verfahrens gemäß einer Ausführungsform der vorliegenden Erfindung schematisch darstellt.
Embodiments of the present invention are described below by way of example using the attached figures.
  • 1 shows a schematic diagram showing individual components of the data quality index according to an embodiment of the present invention.
  • 2 is a schematic diagram showing components of the data quality index along with subcomponents of the components of the data quality index according to an embodiment of the present invention.
  • 3 is a flowchart that schematically illustrates the flow of a method according to an embodiment of the present invention.

1 ist eine schematische Darstellung des Datenqualitätsindex und sechs verschiedener Komponenten des Datenqualitätsindex. Der Datenqualitätsindex 1 besteht aus sechs verschiedenen Komponenten: Rückverfolgbarkeitswert 2, Verwendungswert 3, Informationsgehaltswert 4, Vollständigkeitswert 5, Verständlichkeitswert 6 und Genauigkeitswert 7. Die Komponenten werden durch mathematische Formeln und/oder Messungen bestimmt. Einige Messungen können nur berechnet werden, wenn die erforderlichen Informationen im Datenkatalog vorhanden sind. Die erforderlichen Informationen werden als Metadaten und/oder Information über dem Datensatz bezeichnet. Alle erforderlichen Metadaten werden in dem Datenkatalog und/oder einem Datenlexikon gesammelt. Die Komponente Rückverfolgbarkeitswert 2 umfasst alle zentralen Informationen zum Datensatz wie beispielsweise, ob die Datenquelle und ein Ansprechpartner bekannt sind, um gegebenenfalls weitere Fragen klären zu können. Der Verwendungswert 3 zeigt an, ob der Datensatz in einem definierten Zeitraum mindestens einmal von einem Nutzer verwendet wurde. Dies ist der Tatsache geschuldet, dass immer mehr unterschiedliche Datensätze zur Verfügung gestellt werden, anstatt zu prüfen, welche Datensätze noch regelmäßig genutzt werden. Der Vollständigkeitswert 5 gibt an, wie viele fehlende Einträge in den Spalten (oder Zeilen) des Datensatzes vorhanden sind. Dabei wird unterschieden, in welchen Spalten fehlende Werte auftreten können und in welchen Spaltendateneinträge zu erwarten sind. Der Genauigkeitswert 7 erkennt mögliche Ausreißer und das Verhältnis von syntaktisch korrekten Spalten. Diese Komponente ist nur für numerische Spalten anwendbar. Der Informationsgehaltswert 4 enthält ein Verhältnis aus benötigten oder erwarteten Dateneinträgen zu den Gesamtspalten und ein Verhältnis der Spalten mit demselben Eintrag zu der Gesamtheit der Spalten. Der Verständlichkeitswert 6 ist ein Verhältnis aus der geforderten Metadateninformation pro Spalte des Datensatzes. 1 is a schematic representation of the data quality index and six different components of the data quality index. The Data Quality Index 1 consists of six different components: Traceability Score 2, Usage Score 3, Information Content Score 4, Completeness Score 5, Comprehensibility Score 6 and Accuracy Score 7. The components are determined by mathematical formulas and/or measurements. Some measurements can only be calculated if the required information is present in the data catalog. The required information is referred to as metadata and/or information about the record. All required metadata is collected in the data catalog and/or a data dictionary. The traceability value 2 component includes all central information about the data set, such as whether the data source and a contact person are known in order to be able to clarify further questions if necessary. The usage value 3 indicates whether the data record was used at least once by a user in a defined period of time. This is due to the fact that more and more different data sets are being made available instead of checking which data sets are still being used regularly. The completeness value of 5 indicates how many missing entries there are in the columns (or rows) of the data set. A distinction is made between which columns missing values can occur and which column data entries are to be expected. The precision value 7 detects possible outliers and the ratio of syntactically correct columns. This component is only applicable to numeric columns. The information content value 4 contains a ratio of required or expected data entries to the total columns and a ratio of columns with the same entry to the total columns. The understandability value 6 is a ratio of the required metadata information per column of the data set.

Jede Komponente kann durch eine definierte Formel berechnet werden. Jedes Komponentenergebnis ist standardisiert und hat den gleichen Wertebereich. Er liegt zwischen 0 und 1. So kann die Rückverfolgbarkeit 2 einen Wert von 0,4 liefern, der Verwendungswert einen Wert von 0,0 der Vollständigkeitswert 5 einen Wert von 0,6, der Genauigkeitswert einen Wert von 0,8, der Verständlichkeitswert einen Wert von 0,8 und der Informationsgehaltswert 4 einen Wert von 0,8. Daraus kann ein Datenqualitätsindex von 0,6 bestimmt werden. Each component can be calculated by a defined formula. Each component result is standardized and has the same range of values. It lies between 0 and 1. For example, traceability 2 can provide a value of 0.4, the usage value can provide a value of 0.0, the completeness value 5 can provide a value of 0.6, the accuracy value can provide a value of 0.8, and the understandability value can provide a value of 0.8 Value of 0.8 and the information content value 4 has a value of 0.8. From this, a data quality index of 0.6 can be determined.

2 ist eine schematische Darstellung des Datenqualitätsindex 1 zusammen mit den Komponenten des Datenqualitätsindex sowie deren Subkomponenten. Die Subkomponenten sind hierbei Informationen über die Daten, auf deren Basis der Datenqualitätsindex 1 bestimmt wird. Die Information über die Daten unterscheiden sich in Metadaten und berechnete Daten. Metadaten sind Daten, die durch einen Nutzer oder automatisch den jeweiligen strukturierten Daten beigefügt werden. Beispielsweise sind bei dem Verfolgbarkeitswert 2 ein Datenerstellungswert 21 und ein Aktualisierungswert 22 die auf Basis der Metadaten bestimmten Subkomponenten. Der Datenerstellungswert 21 setzt sich hierbei aus einer Quelle, einem Kontakt und einem Erzeugungsdatum zusammen. Dies kann automatisch bestimmt werden. Der Aktualisierungswert 22 kann ebenfalls automatisch bestimmt werden und gibt an, wann die Daten zuletzt aktualisiert worden sind. Der Verwendungswert 3 weist eine Nutzungsverfolgung 31 als Subkomponente auf. Auch diese kann automatisch den jeweils strukturierten Daten zugeordnet werden. Der Vollständigkeitswert 5 weist ein Vollständigkeitsverhältnis 51 auf, welches aussagt, wie viele Zellen des Datensatzes vollständig ausgefüllt sind. Der Genauigkeitswert 7 weist ein Genauigkeitsverhältnis 71 auf, welches angibt, wie viel syntaktisch korrekte Zellen im Verhältnis zu der Gesamtzahl der Zellen in dem Datensatz vorhanden sind. Ferner basiert der Genauigkeitswert auf einer potentiellen Ausreißererfassung bzw. Ausreißerwert 72. Bei der potentiellen Ausreißererfassung 72 handelt es sich um einen berechneten Wert. Die Ausreißererfassung 72 kann auch als Verhältnis der Spalten mit potenziellen Ausreißern betrachtet werden. Hierfür ist es nicht notwendig, externe Daten zur Verfügung zu stellen, sondern es ist ausreichend, lediglich den Datensatz an sich zu analysieren. Der Verständlichkeitswert 6 weist ein Verhältnis 61 auf, welches angibt, wie viele Zellen mit Metadaten versehen sind. Mit anderen Worten kann hierdurch bestimmt werden, wie viel Informationen über die Daten zur Verfügung stehen. Der Informationsgehalt weist ein benötigtes Spaltenverhältnis 41 auf, welches angibt, wie viele benötigte Spalten ausgefüllt sind im Verhältnis zu der Gesamtzahl der Spalten. Ferner weist der Informationsgehaltswert 4 eine Bestimmung von gleichen Einträgen 42 auf. Die Bestimmung der gleichen Einträge 42 sind hierbei berechnete Daten, die lediglich auf Basis der strukturierten Daten bestimmt werden können. Hierbei kann analysiert werden, wie viele gleiche Einträge in einer Spalte vorhanden sind. 2 is a schematic representation of the data quality index 1 together with the components of the data quality index and their subcomponents. The subcomponents are information about the data on the basis of which the data quality index 1 is determined. The information about the data differs in metadata and calculated data. Metadata is data that is added to the respective structured data by a user or automatically. For example, for the traceability value 2, a data creation value 21 and an update value 22 are the subcomponents determined based on the metadata. The data creation value 21 consists of a source, a contact and a creation date. This can be determined automatically. The update value 22 can also be determined automatically and indicates when the data was last updated. The usage value 3 has usage tracking 31 as a subcomponent. This can also be automatically assigned to the structured data. The completeness value 5 has a completeness ratio 51, which states how many cells of the data record are completely filled out. The accuracy value 7 has an accuracy ratio 71, which indicates how many syntactically correct cells are present in relation to the total number of cells in the data set. Furthermore, the accuracy value is based on a potential outlier detection or outlier value 72. The potential outlier detection 72 is a calculated value. The outlier detection 72 can also be viewed as a ratio of columns with potential outliers. For this it is not necessary to provide external data; it is sufficient to simply analyze the data set itself. The understandability value 6 has a ratio 61, which indicates how many cells have metadata. In other words, this can determine how much information about the data is available. The information content has a required column ratio 41, which indicates how many required columns are filled in relation to the total number of columns. Furthermore, the information content value 4 has a determination of identical entries 42. The determination of the same entries 42 is calculated data that can only be determined based on the structured data. This allows you to analyze how many identical entries there are in a column.

3 ist ein Ablaufdiagramm, das schematisch den Ablauf des Verfahrens zeigt. Zuerst werden in Schritt S1 die strukturierten Daten empfangen. In Schritt S2 werden Informationen über die Daten empfangen und/oder bestimmt. Anschließend werden in Schritt S3 die Informationen über die Daten ausgewertet, um zumindest eine Komponente des Datenqualitätsindex zu erlangen. In Schritt S4 wird dann der Datenqualitätsindex der Daten auf Basis der zumindest einen Komponente des Datenqualitätsindex bestimmt. Das Verfahren kann auch mehrfach hintereinander ausgeführt werden. 3 is a flowchart that schematically shows the process flow. First, the structured data is received in step S1. In step S2, information about the data is received and/or determined. The information about the data is then evaluated in step S3 in order to obtain at least one component of the data quality index. In step S4, the data quality index of the data is then determined based on the at least one component of the data quality index. The procedure can also be carried out several times in a row.

BezugszeichenReference symbols

11
DatenqualitätsindexData quality index
22
RückverfolgbarkeitswertTraceability value
33
VerwendungswertUse value
44
InformationsgehaltswertInformation content value
55
VollständigkeitswertCompleteness value
66
VerständlichkeitswertIntelligibility value
77
GenauigkeitswertAccuracy value
2121
DatenerstellungswertData creation value
2222
AktualisierungswertUpdate value
3131
NutzungsverfolgungUsage tracking
4141
SpaltenverhältnisColumn ratio
4242
gleiche Einträgensame entries
5151
VollständigkeitsverhältnisCompleteness ratio
6161
Verhältnis der MetadatenRatio of metadata
7171
GenauigkeitsverhältnisAccuracy ratio
7272
AusreißererfassungOutlier detection

Claims (16)

Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex (1) von Daten, umfassend: Empfangen von strukturierten Daten, welche insbesondere in Spalten und Zeilen strukturierte Einträge umfassen, Empfangen und/oder Bestimmen von Informationen über die Daten, Auswerten der Informationen über die Daten, um zumindest eine Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) zu erlangen, Bestimmen des Datenqualitätsindex (1) der Daten auf Basis der zumindest einen Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) und Aussortieren und/oder Vorsortieren und/oder Auswählen von Bauteilen, wobei dazu der Datenqualitätsindex (1) genutzt wird.Computer-implemented method for determining a data quality index (1) of data, comprising: Receiving structured data, which in particular includes entries structured in columns and rows, Receiving and/or determining information about the data, Evaluating the information about the data in order to obtain at least one component (2, 3, 4, 5, 6, 7) of the data quality index (1), Determining the data quality index (1) of the data based on the at least one component (2, 3, 4, 5, 6, 7) of the data quality index (1) and Sorting out and/or pre-sorting and/or selecting components, using the data quality index (1) for this purpose. Verfahren gemäß Anspruch 1, wobei die strukturierten Daten Messdaten oder simulierte Daten in Bezug auf ein Bauteil umfassen.Procedure according to Claim 1 , wherein the structured data includes measurement data or simulated data relating to a component. Verfahren gemäß Anspruch 1 oder 2, wobei die Informationen über die Daten Metadaten und/oder berechnete Daten umfassen.Procedure according to Claim 1 or 2 , wherein the information about the data includes metadata and/or calculated data. Verfahren gemäß Anspruch 3, wobei die Metadaten einen Identifikator, einen Spaltennamen, einen Zeilennamen, einen Datentyp, eine Beschreibung, eine Syntaxregel, einen Beispieleintrag, notwendige Einträge, optionale Einträge, ein Freitextfeld und/oder einen Schlüssel- oder ID-Wert der Daten umfassen.Procedure according to Claim 3 , wherein the metadata includes an identifier, a column name, a row name, a data type, a description, a syntax rule, an example entry, necessary entries, optional entries, a free text field and / or a key or ID value of the data. Verfahren gemäß Anspruch 3 oder 4, wobei die berechneten Daten eine Bestimmung gleicher Einträge und/oder Ausreißereinträge der Daten umfassen.Procedure according to Claim 3 or 4 , wherein the calculated data includes a determination of identical entries and/or outlier entries of the data. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente (2, 3, 4, 5, 6, 7) des Datenqualitätsindex (1) einen Rückverfolgbarkeitswert (2) umfasst, welcher basierend auf einem Datenerstellungswert (21), welcher insbesondere basierend auf einer Datenquelle, eines Datenkontakts und/oder eines Erstellungsdatums bestimmt ist, und einem Aktualisierungswert (22) bestimmt wird.Method according to one of the preceding claims, wherein the at least one component (2, 3, 4, 5, 6, 7) of the data quality index (1) comprises a traceability value (2), which is based on a data creation value (21), which is in particular based on a data source, a data contact and/or a creation date is determined, and an update value (22) is determined. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Verwendungswert (3) umfasst, welcher basierend auf einer verstrichenen Zeit seit der letzten Verwendung der Daten bestimmt wird.Method according to one of the preceding claims, wherein the at least one component of the data quality index (1) comprises a usage value (3) which is determined based on an elapsed time since the data was last used. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Informationsgehaltswert (4) umfasst, welcher basierend auf einem Verhältnis benötigter Einträge (41) und vorhandener Einträge der Daten sowie einem Verhältnis der verschiedenen Einträge (42) bestimmt wird.Method according to one of the preceding claims, wherein the at least one component of the data quality index (1) comprises an information content value (4) which is determined based on a ratio of required entries (41) and existing entries of the data as well as a ratio of the different entries (42). . Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Vollständigkeitswert (5) umfasst, welcher basierend auf einem Verhältnis (51) vorhandener Einträge zu einer Anzahl der Einträge und der benötigten Einträge bestimmt wird.Method according to one of the preceding claims, wherein the at least one component of the data quality index (1) comprises a completeness value (5), which is determined based on a ratio (51) of existing entries to a number of entries and the required entries. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Verständlichkeitswert (6) umfasst, welcher basierend auf einem Verhältnis (61) von vorhandenen Metadaten zu benötigten Metadaten bestimmt wird.Method according to one of the preceding claims, wherein the at least one component of the data quality index (1) comprises an understandability value (6) which is determined based on a ratio (61) of existing metadata to required metadata. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die zumindest eine Komponente des Datenqualitätsindex (1) einen Genauigkeitswert (7) umfasst, welcher basierend auf einem Verhältnis von syntaktisch korrekten Einträgen zu der Anzahl der Einträge (71) und/oder einem Verhältnis von möglichen Ausreißereinträgen zu der Anzahl der Einträge (72) bestimmt wird.Method according to one of the preceding claims, wherein the at least one component of the data quality index (1) comprises an accuracy value (7), which is based on a ratio of syntactically correct entries to the number of entries (71) and / or a ratio of possible outlier entries the number of entries (72) is determined. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex (1) in demselben Wertebereich liegen, vorzugsweise in einem Bereich zwischen 0 und 1.Method according to one of the preceding claims, wherein the values obtained for several or all components of the data quality index (1) lie in the same range of values, preferably in a range between 0 and 1. Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die erlangten Werte für mehrere oder alle Komponenten des Datenqualitätsindex (1) addiert werden und das Ergebnis durch die Anzahl der Komponenten des Datenqualitätsindex dividiert wird, um den Datenqualitätsindex zu erlangen.Method according to one of the preceding claims, wherein the obtained values for several or all components of the data quality index (1) are added and the result is divided by the number of components of the data quality index to obtain the data quality index. Verfahren gemäß Anspruch 13, wobei die einzelnen Komponenten des Datenqualitätsindex bei der Bestimmung des Datenqualitätsindex mit einem Faktor, insbesondere zwischen 0 und 10, multipliziert werden, um alle oder einzelne Komponenten des Datenqualitätsindex zu gewichten.Procedure according to Claim 13 , whereby the individual components of the data quality index are multiplied by a factor, in particular between 0 and 10, when determining the data quality index, in order to weight all or individual components of the data quality index. Computerprogramm mit Programmcode, der, wenn er auf einer Recheneinheit ausgeführt wird, dazu ausgestaltet ist das Verfahren gemäß einem der vorhergehenden Ansprüche auszuführen.Computer program with program code which, when executed on a computing unit, is designed to carry out the method according to one of the preceding claims. Steuereinheit, die dazu ausgestaltet ist, das Verfahren gemäß einem der Ansprüche 1 bis 14 auszuführen.Control unit designed to implement the method according to one of Claims 1 until 14 to carry out.
DE102022207482.3A 2022-07-21 2022-07-21 Computer-implemented method for determining a data quality index, computer program and control unit Active DE102022207482B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022207482.3A DE102022207482B4 (en) 2022-07-21 2022-07-21 Computer-implemented method for determining a data quality index, computer program and control unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022207482.3A DE102022207482B4 (en) 2022-07-21 2022-07-21 Computer-implemented method for determining a data quality index, computer program and control unit

Publications (2)

Publication Number Publication Date
DE102022207482A1 DE102022207482A1 (en) 2024-02-01
DE102022207482B4 true DE102022207482B4 (en) 2024-03-07

Family

ID=89508554

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022207482.3A Active DE102022207482B4 (en) 2022-07-21 2022-07-21 Computer-implemented method for determining a data quality index, computer program and control unit

Country Status (1)

Country Link
DE (1) DE102022207482B4 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185309A1 (en) 2012-01-16 2013-07-18 Tata Consultancy Services Limited Data quality analysis
US20140229456A1 (en) 2013-02-12 2014-08-14 International Business Machines Corporation Data quality assessment
US20200380379A1 (en) 2019-06-03 2020-12-03 Bank Of America Corporation Data Quality Tool
US20210263900A1 (en) 2020-02-26 2021-08-26 Ab Initio Technology Llc Generating rules for data processing values of data fields from semantic labels of the data fields

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185309A1 (en) 2012-01-16 2013-07-18 Tata Consultancy Services Limited Data quality analysis
US20140229456A1 (en) 2013-02-12 2014-08-14 International Business Machines Corporation Data quality assessment
US20200380379A1 (en) 2019-06-03 2020-12-03 Bank Of America Corporation Data Quality Tool
US20210263900A1 (en) 2020-02-26 2021-08-26 Ab Initio Technology Llc Generating rules for data processing values of data fields from semantic labels of the data fields

Also Published As

Publication number Publication date
DE102022207482A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
DE112022000106T5 (en) Transmission fault diagnosis and signal acquisition method, apparatus and electronic device
EP2433185B1 (en) Apparatus and method for editing a process simulation database for a process
DE102022207482B4 (en) Computer-implemented method for determining a data quality index, computer program and control unit
EP1750209A1 (en) Method and apparatus for automatically presenting data ordered in data fields
DE4121453C2 (en) Approximation inference device
EP1738306A1 (en) Computerized protection system and method for automatically identifying and/or characterizing risk parameters
WO2005045714A2 (en) Device and method for quantifying states with alternative features
DE10349271A1 (en) Device for defining information quantities for alternative features e.g. for teaching or demonstration purposes, detects object numbers with one feature or alternative feature for calculating corresponding ratio
DE102007044380A1 (en) Computer-aided studying of probabilistic network from data record of measured, experimentally determined and/or empirical values, comprises studying structure of non-directed graphs having nodes and non-directed edges from the data record
Simon et al. Influencing factors for acceptance of digital tools in the humanities
Schult Wie viele Schulen braucht ein fairer Vergleich? Sozialindex-basierte Adjustierungsstrategien im Vergleich
DE102005018063A1 (en) Method for receiving and assigning conditional dependent test results
DE102016113310A1 (en) A method for evaluating statements of a plurality of sources about a plurality of facts
DE102020201183A1 (en) Method and device for simulating a technical system
DE102006012172A1 (en) Computer-implemented method for the automated comparison of at least one competence topology of a vacant and / or occupied position / position with the competence topology of one or more candidates and arrangement for carrying out the method
DE3417417A1 (en) Method of verifying the expected market acceptance of products with the aid of surveys
DE202022101216U1 (en) A system for determining noise-polluted regions using data mining approaches and cluster techniques
DE102020119579A1 (en) Method for assigning states to components, apparatus, computer program product and computer-readable storage medium
DE202022102360U1 (en) A distance measurement system for Pythagorean fuzzy sets with various applications
Urban et al. Normierung von Tests und Fragebögen: Ein systematischer Methodenüberblick für deutschsprachige Verfahren
DE102021214465A1 (en) Analysis of the behavior of image classifiers
Daniel et al. Higher education dropout and hiring prospects in the apprenticeship market. A factorial survey of employers
DE202023106004U1 (en) An artificial intelligence and machine learning based system to automate employee management and work information in the organization
Nagy et al. IRT Scaling of the Tests in PISA Longitudinal Assessment 2012/2013: Impact of Test Context Effects on the Growth Estimate
DE102014016676A1 (en) Method for the computer-aided selection of applicants from a large number of applicants for a given requirement profile

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016250000

Ipc: G06F0016215000

R018 Grant decision by examination section/examining division