DE102004034398A1 - Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten - Google Patents

Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten Download PDF

Info

Publication number
DE102004034398A1
DE102004034398A1 DE102004034398A DE102004034398A DE102004034398A1 DE 102004034398 A1 DE102004034398 A1 DE 102004034398A1 DE 102004034398 A DE102004034398 A DE 102004034398A DE 102004034398 A DE102004034398 A DE 102004034398A DE 102004034398 A1 DE102004034398 A1 DE 102004034398A1
Authority
DE
Germany
Prior art keywords
hypothetical
linear relationships
measured
hypothetical linear
relationships
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102004034398A
Other languages
English (en)
Other versions
DE102004034398B4 (de
Inventor
Matthias Dr. Holschneider
Frank Kose
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universitaet Postdam
Original Assignee
Universitaet Postdam
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitaet Postdam filed Critical Universitaet Postdam
Priority to DE102004034398A priority Critical patent/DE102004034398B4/de
Priority to US11/182,723 priority patent/US7483812B2/en
Publication of DE102004034398A1 publication Critical patent/DE102004034398A1/de
Application granted granted Critical
Publication of DE102004034398B4 publication Critical patent/DE102004034398B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betriftt ein Verfahren zum Ermitteln einer linearen Beziehung in einer Menge elektronisch speicherbarer Meßdaten, wobei die lineare Beziehung mittels einer Geraden grafisch darstellbar ist und die Meßdaten jeweils einen einer Meßgröße zugeordneten Meßwert umfassen, das Verfahren, die folgenden Schritte aufweisend: Auswählen einer Menge von Meßwerten für mindestens zwei Meßgrößen aus der Menge elektronisch speicherbarer Meßdaten; Zuordnen eines jeweiligen Meßunsicherheitsintervalls zu den ausgewählten Meßwerten; Bilden einer Menge von hypothetischen linearen Beziehungen durch die Menge der ausgewählten Meßwerte; Ermitteln von Teilwahrscheinlichkeiten für die Menge von hypothetischen linearen Beziehungen und Zuordnen der ermittelten Teilwahrscheinlichkeiten zu den hypothetischen linearen Beziehungen, wobei für eine der hypothetischen linearen Beziehungen für einen der Meßwerte eine Teilwahrscheinlichkeit ermittelt und zugeordnet wird, wenn das Meßunsicherheitsintervall des einen der Meßwerte von der einen der hypothetischen linearen Beziehungen geschnitten wird; Ermitteln einer Gesamtwahrscheinlichkeit für zumindest einen Teil der hypothetischen linearen Beziehungen, indem die zugeordneten Teilwahrscheinlichkeiten für zumindest den Teil der hypothetischen linearen Beziehungen aufsummiert werden; und Ermitteln einer Rangfolge der hypothetischen linearen Beziehungen in Abhängigkeit von den ermittelten Gesamtwahrscheinlichkeiten für zumindest den Teil der ...

Description

  • Die Erfindung bezieht sich auf ein Verfahren zum Ermitteln einer linearen Beziehung in einer Menge elektronisch speicherbarer Meßdaten, wobei die lineare Beziehung mittels einer Gerade grafisch darstellbar ist.
  • Ein Datensatz mit Meßdaten kann hinsichtlich seiner Meßgrößen und der den Meßdaten zugeordneten Meßwerte beliebig unterteilt werden, was insofern wichtig ist, da die Unterteilung funktionalen Charakter annehmen kann. Die einfachste Unterteilung ist der gesamte Datensatz.
  • In der Statistik werden erfaßte Meßgrößen, welche als Meßdaten zu einem Datensatz zusammengefaßt werden, häufig mittels der Größen Mittelwert und Varianz beschrieben. Lineare Zusammenhänge/Beziehungen zwischen einzelnen Meßgrößen, wie zum Beispiel Größe und Länge eines Stammdurchmessers, werden mittels der Methoden der linearen Regression und/oder der Korrelationsanalyse abgeschätzt. Im ersten Fall wird bereits angenommen, daß ein linearer Zusammenhang besteht. Im zweiten Fall wird das Verhältnis der bedingten und der gesamten Varianz zwischen zwei Meßgrößen ermittelt. Die bedingte Varianz ist der Anteil der Gesamtvarianz zwischen zwei Meßgrößen, welcher durch eine lineare Beziehung beschrieben werden kann.
  • Alle diese bekannten Auswerteverfahren gehen aber davon aus, daß es einen die Meßgrößen und deren Zusammenhänge beschreibenden wahren Wert gibt, welcher durch andere Einflüsse zwar verfälscht wird, aber bestimmbar ist. So ist der Mittelwert der Wert, welcher dem wahren Wert einer Meßgröße wahrscheinlich am nächsten kommt. Die Abweichung der gemessenen Werte vom Mittelwert werden in der Varianz subsummiert und entsprechen der Summe alle Einflüsse, welche diesen Wert verfälschen können. Diese Einflüsse sind per Definition nicht korreliert und außerdem gibt es keinen Einfluß der dominant ist. Somit werden alle Meßwerte einer Meßgröße als Ergebnis der Summe eines wahren Wertes und ihn verfäl schender Einflüsse erklärt. Um diese Grüßen jedoch funktional verwerten zu können, wird der Datensatz so gewählt, daß er mit einer bestimmten Funktion oder Eigenschaft übereinstimmt.
  • Soll zum Beispiel das Wachstum einer Pilzkultur bei verschiedenen Temperaturen bestimmt werden, so werden nur die Meßwerte vereinigt, welche gleichen Temperaturen zugeordnet sind. Die Zuordnung der Meßwerte zum Datensatz erfolgt also aufgrund eines bereits abstrahierten hypothetischen funktionalen Zusammenhangs. In diesem Versuchsansatz wird also vereinfachend angenommen, daß Wachstum eine Funktion der Temperatur ist und vor allem daß jeder Temperatur nur ein Wert des Wachstums entspricht.
  • Die Erfindung
  • Aufgabe der Erfindung ist es, ein verbessertes Verfahren zum Ermitteln einer linearen Beziehung aus elektronischen Meßdaten zu schaffen, bei dem die im Stand der Technik limitierenden Vorausannahmen vermieden werden.
  • Diese Aufgabe wird durch ein Verfahren nach dem unabhängigen Anspruch 1 gelöst.
  • Mit Hilfe des Verfahrens können unvoreingenommen (hypothetische) lineare Beziehungen als Ausdruck eines funktionellen Zusammenhangs in Sätzen von Meßdaten ermittelt werden. Das Verfahren verwendet als Eingabe den analytischen Fehler, womit zufällige Varianz berücksichtigt wird. Dies führt dazu, daß einerseits hypothetische lineare Beziehungen immer mit einer genau definierten Punktmenge in Verbindung gebracht werden können. Andererseits wird verhindert, daß mögliche Hypothesen durch einen zu hohen analytischen Fehler ausgeschlossen werden. Dies ermöglicht es auch, die Unsicherheit, welche in nicht gemessenen Werten liegt, für die Hypothesengenerierung auszuschließen.
  • Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand abhängiger Unteransprüche.
  • Zeichnung
  • Die Erfindung wird im folgenden anhand von Ausführungsbeispielen unter Bezugnahme auf eine Zeichnung näher erläutert. Hierbei zeigen:
  • 1 einen x, y – Plot mit einem zentralen Meßpunkt (schwarzer Punkt), welcher mit einer Meßunsicherheit behaftet ist;
  • 2 einen x, y – Plot mit einer hypothetischen linearen Beziehung, welche mittels einer durchgezogenen Linie mit negativem Anstieg symbolisiert ist;
  • 3A, 3B einen x, y – Plot mit Meßwerten zweier Meßgrößen aus einem Datensatz, welcher in Fiehn, O.: Metabolic networks of Curcubita maxima phloem. Phytochemistry 62 (2003), 875-886 veröffentlicht wurde, mit im Hintergrund dargestellter Likelyhood-Verteilung;
  • 4A, 4B einen x, y – Plot, wie in 3 mit einer eingezeichneten hypothetischen linearen Beziehung (durchgezogene Linie), mit im Hintergrund dargestellter Likelyhood-Verteilung, mit und ohne Meßwerte;
  • 5 einen x, y – Plot, wie in 4, wobei ein Meßunsicherheitsintervall dargestellt ist;
  • 6A, 6B einen x, y – Plot eines Satzes simulierter Meßdaten für zwei Variablen x und y, wobei in 6b lineare Beziehungen eingezeichnet sind, welche der Simulation zugrunde liegen;
  • 7 einen x, y – Plot, wie in 6b, wobei Meßwerte als weiße Symbole dargestellt sind und zusätzlich im Hintergrund eine Likelyhood-Verteilung dargestellt ist;
  • 8A, 8B, 8C einen x, y – Plot, wie in 7 für drei verschiedene hypothetische lineare Beziehungen und jeweils im Hintergrund dargestellter Likelyhood-Verteilung;
  • 9A, 9B einen x, y – Plot von 2-Methylserine (x-Achse) gegen 2-O-Glycerolgalactosid (y-Achse) aus Phloemdaten aus Kürbis mit zugehöriger Likelyhood-Verteilung;
  • 11A einen x, Y – Plot gemäß 9, wobei für die Likelyhood-Verteilung ein veränderter Koordinatenursprung gewählt wurde;
  • 11B einen vergrößerten Abschnitt aus 11a;
  • 11C einen x, y – Plot gemäß 11a mit einer Auswahl eines lokalen Maximums gemäß 11b und der Darstellung einer entsprechenden hypothetischen linearen Beziehung;
  • 12 einen x, y – Plot mit Meßwerten des Organs Frucht für die Meßgrößen 2-Methylserine und 2-O-Glycerol-Galactosid;
  • 13A13F einen x, y – Plot gemäß 12, wobei die 13B13F verschiedene lineare Hypothesen mit zugeordneten Meßwerten (schwarze Symbole) darstellen;
  • 14A, 14B einen x, y – Plot gemäß 13 mit einer Clusterung, wobei verschiedene Cluster mittels verschiedener Symbole gekennzeichnet sind;
  • 15 Zeitbalken mit einem oberen Zeitbalken für den Wechsel der Tageszeiten und eine unteren Zeitbalken zur Zuordnung von Zeitabschnitten, Meßwertnummern und Clustern gemäß 14B;
  • 16 einer Faktorenanalyse der Cluster 3 (schwarz) und 2 (weiß) in 14B von 59 Meßgrößen;
  • 17 Loadings der Meßgrößen auf die Faktoren 1 und 2 aus der Faktorenanalyse gemäß 16.
  • Ausführungsbeispiele
  • Das im folgenden beschriebene Verfahren zur Meßdatenauswertung ist gegenüber bekannten oder angenommenen funktionalen Zusammenhängen unvoreingenommen. Das heißt, die Zuordnung von Meßwerten zu einem Datensatz erfolgt nicht nach bekannten funktionalen Zusammenhängen, sondern danach, ob sie ihrem „Verhalten" entsprechend zu einem funktionalen Zusammenhang gehören könnten. Dieses Verhalten ist im Falle des hier beschriebenen Algorithmuses ein lineares Verhalten von zwei Meßgrößen.
  • (A) Das Verfahren zum Ermitteln einer linearer Beziehung
  • Zunächst werden die Grundlagen des Verfahrens als Schrittfolge erläutert.
  • Schritt 1
  • In einem ersten Schritt wird ein beliebiges Paar zweier Meßgrößen ausgewählt und nach einer oder mehreren Meßwertgruppen gesucht, welche durch ein lineares Verhalten erklärt werden könnten.
  • Grundvoraussetzung für das Finden linearer Zusammenhänge ist die Kenntnis der Meßunsicherheit der Meßgrößen. Meßunsicherheit beinhaltet die Kenntnis über Meßfehler, welche bei jeder Messung auftreten. Diese werden aus der Kenntnis des Meßvorganges heraus abgeschätzt. Zum Beispiel ist es mit Hilfe eines Lineals nur möglich, Größen im Millimeterbereich aufzulösen. Die Varianz, welche über den Meßprozeß in den Datensatz einfließt, ist nicht mit der bestimmten Meßgröße funktional verknüpft und wird als Gaußsche Normalfunktion beschrieben. Als beschreibendes Maß wird das Intervall +/- 2 mal Standardabweichung verwendet, welches mit 95%iger Sicherheit den wahren Wert des Meßwertes beinhaltet. Diese Information ist grundlegend, da unterschiedliche Meßfehler die Suche nach einem linearen Zusammenhang unterschiedlich stark verwischen können.
  • Schritt 2
  • In einem zweiten Schritt wird deshalb für jeden Meßwert die Meßunsicherheit abgeschätzt und diese im Intervall +/-2 mal Standardabweichung (σ) angegeben. Der nun folgende Schritt ist mit dem Bayseschen Gesetz
    Figure 00050001
    verknüpft.
  • B steht für Meßgröße und A steht für Modell, was im vorliegenden Fall gleichbedeutend mit linearem Verhalten ist. p(A/B) wird als Likelyhood bezeichnet und gibt die Wahrscheinlichkeit des Modells A unter Bedingung der Meßwerte B an. Diese ist gleich der Wahrscheinlichkeit der Meßwerte B, falls A stimmt, gewichtet mit dem Verhältnis der Wahrscheinlichkeiten des Modells A und der Daten B. In einem Beispiel sei B die Feuchtigkeit an einem Ort X. Wenn es geregnet hat, ist dieser Ort mit einer bestimmten Wahrscheinlichkeit feucht, aber es kann auch andere Gründe geben. Der Regen ist ein erklärendes Modell, in diesem Fall A. Somit ist p(B/A) die Wahrscheinlichkeit, mit der Ort X nass ist, wenn es geregnet hat. Nun kann ich die Wahrscheinlichkeit p(A/B) berechnen. Das heißt aus der Kenntnis heraus, ob der Ort X naß ist, kann ich die Wahrscheinlichkeit berechnen, mit der es geregnet hat. Dazu wird p(B/A) mit multipliziert p(A), daß heißt mit der Wahrscheinlichkeit, daß es regnet, und durch die Wahrscheinlichkeit p(B) dividiert, daß es naß ist. Sind p(A) und p(B) gleich, heißt dies, daß p(A/B) und p(B/A) gleich sind. Es kann also aus der Feuchte genauso gut abgeleitet werden, ob es geregnet hat, wie aus der Kenntnis über den Regen ableitbar ist, daß der Ort X feucht ist.
  • Dieses Prinzip ist übertragbar. Im Falle hier beschriebenen Verfahrens steht A für das Verhalten oder das Modell, dessen Wahrscheinlichkeit abgeschätzt werden soll. Es ist dies die lineare Beziehung zwischen zwei Meßgrößen. Die Daten B sind Meßwerte. Aus der Kenntnis der Wahrscheinlichkeit der Meßwerte an ihren gemessenen Orten kann also die Wahrscheinlichkeit einer bestimmten linearen Beziehung genauso abgeleitet werden, wie die Wahrscheinlichkeit von Meßwerten, wenn von einer bestimmten linearen Beziehung ausgegangen wird. Die Wahrscheinlichkeit p(B/A) ist demnach die Beschreibung des wahren Aufenthaltsortes des gemessenen Wertes – die Gaußsche Funktion, welche die Meßunschärfe beschreibt. p(A) ist die Wahrscheinlichkeit des Modells, und p(B) ist die Wahrscheinlichkeit der Meßdaten. Da es kein Modell gibt, welches quasi eine höhere Wahrscheinlichkeit besitzt, ist p(A) für alle Modelle gleich. Das gleiche gilt für die Meßwerte. Der Quotient aus p(A) und p(B) ist also konstant. Da es bei der Suche nach der wahrscheinlichsten linearen Beziehung nicht darauf ankommt, wie groß die Wahrscheinlichkeit ist, sondern darauf, ob die angenommene lineare Beziehung am wahrscheinlichsten ist, ist dieser Faktor vernachlässigbar. Also ergibt sich: p(A/B) = k·p(B/A) (2)
  • Diese Formel ist für jeden Meßwert ausführbar. Das heißt, jeder Meßwert wichtet die Menge aller linearen Hypothesen unabhängig. Liegen zwei Punkte unterschiedlich entfernt von einer angenommenen Linearität, so ist diese angesichts dieser Punkte unterschiedlich wahrscheinlich. Um die Menge aller Meßwerte bei der Bewertung einer Hypothese zu vereinigen, wird das Produkt aus den errechneten Wahrscheinlichkeiten eines jeden Meßwertes gebildet. Es ist also:
    Figure 00070001
    Formel (3) kann auch als Summe der Logarithmen verwendet werden und lautet dann: P(A/ΣB) = k·Σlog(p(Bi/A)) (3a)(3) und (3a) sind gleichberechtigt im Verfahren nutzbar. Bei allen folgenden Auswertungen wird vereinfachend Formel (3a) verwendet.
  • Kernpunkt ist, wie sich oben ergibt, der Term p(B/A), welcher durch die Gaußsche Funktion beschrieben wird und welcher den analytischen Fehler eines Meßwertes darstellt. Zur Verdeutlichung ist es nützlich, sich p(B/A) als dritte Dimension vorzustellen. In einem zweidimensionalen Plot nimmt diese Gaußsche Funktion die Form eines Hügels an, wobei der Gipfelpunkt senkrecht über dem Meßwert liegt (vgl. 1) Dies heißt in der Folge, daß sich der wahre Meßwert im zweidimensionalen Raum irgendwo „unter" diesem Hügel befindet. Je kleiner die Höhe, desto unwahrscheinlicher befindet sich der wahre Meßwert an dieser Stelle.
  • Verschiedene wahre Meßwerte erklären verschiedene lineare Beziehungen. Andererseits können verschiedene mögliche Meßpunkte auf einer Linie liegen und somit ein und dieselbe lineare Beziehung erklären. Die Lösung ergibt sich dadurch, daß von der Vorstellung ausgegangen wird, daß jedes hypothetische Model A einen „Hügel" schneiden kann, so als würde dieser Hügel an der Schnittkante abgestochen. An der „Schnittkante" wird eine Fläche mit der Form einer Gaußschen Verteilung sichtbar. Diese Fläche ist die Wahrscheinlichkeit des Wertes B, wenn das Modell A stimmt. Diese Fläche variiert je nachdem, wo eine Linie den „Hügel" schneidet (vgl. 1). Somit sind verschiedene lineare Beziehungen auf Basis unseres Meßpunktes unterschiedlich wahrscheinlich.
  • Das Integral wird durch folgende Formel berechnet:
    Figure 00080001
    i ist der Index des jeweiligen Meßwertes. Das heißt p(Bi/A) wird für jedes Meßwertpaar xi und yi der gewählten Meßgrößen berechnet. σxi und σyi sind die xi und yi zugeordneten Standardabweichungen des i-ten Meßwertpaares und beschreiben den Meßfehler für diese Meßwerte. σxi und σyi werden aus den Angaben im zweiten Schritt durch Halbierung errechnet. P1 und P2 stellen die Parameter einer allgemeinen Geradengleichung dar. y = P1·x + P2 (4a)P1 wird im allgemeinen als Steigung, P2 als Schnittpunkt mit der y-Achse bezeichnet.
  • Zusätzlich wird ein Summand 1 eingefügt, so daß sich aus Formel (4) folgende Formel ergibt.
  • Figure 00080002
  • Dieser Summand hat die Aufgabe, den Einfluß der Meßwerte untereinander auf das Produkt in Formel (3) zu entkoppeln. Es ist klar, daß zum Beispiel bei einem Ausreißer p(Bi/A) nahezu gegen 0 gehen kann. Das Produkt in Formel (3) wäre demnach ebenfalls sehr klein bzw. ginge gegen 0. Dies bedeutet, daß alle Meßwerte die hypothetische Linie mehr oder weniger erklären müßten, damit dieser Fall nicht eintritt. Da davon ausgegangen wurde, daß Ausreißer existieren und vor allem daß mehrere lineare Beziehungen gleichzeitig existieren können, ist dieser Umstand auszublenden. Dies wird durch die Einführung einer Konstante 1 gewährlei stet. Im Resultat ist man nun in der Lage zu jeder hypothetischen linearen Beziehung, definiert durch P1 und P2, eine Likelyhood zu errechnen. Noch einmal sei hinzugefügt, daß in allen weiteren Schritten die Summe der Logarithmen verwendet wird, auch wenn die Formeln (3) und (3a) gleichberechtigt verwendbar sind.
  • Mit den eingeführten Formeln ist nun die Möglichkeit geschaffen, für eine beliebige Hypothese die Likelyhood oder Wahrscheinlichkeit zu berechnen. Doch wie viele Hypothesen existieren nun – eigentlich unendlich viele. Deshalb ist es auch so gut wie unmöglich mittels einfachen Ausprobieren die wahrscheinlichste(n) Hypothese(n) zu finden, zumal nicht bekannt ist, mit welcher Teilmenge der Meßwerte diese verknüpft ist (sind). Dies soll ja erst herausgefunden werden. Eine Ausprobierrate ist jedoch gut abzuschätzen. Hier hilft eine spezielle Anwendung der Hesseschen Normalform, welche gleichzeitig der kompakten Visualisierung dient. Die Hessesche Normalform lautet für den zweidimensionalen Fall: ax + by = c (6)wobei a, b und c beliebige Konstanten sind. x und y sind die Meßgrößen. Aus dieser Form kann auch die Geradengleichung (siehe Formel (4a)) abgeleitet werden, welche dann lautet:
    Figure 00090001
    2 verdeutlicht diesen Sachverhalt. 2 zeigt ein zweidimensionales Diagramm mit den beiden Achsen x und y. Die durchgezogene Linie symbolisiert die lineare Beziehung. Die gestrichelte Linie ist die Normale dieser Linie, welche gleichzeitig durch den Ursprungspunkt geht. xn und yn sind die Koordinaten des Aufpunktes der Normalen auf der gestrichelten Geraden. Es gilt:
    Figure 00100001
  • Damit ist P1 berechenbar.
  • Figure 00100002
  • Der Abstand vom Ursprungspunkt zum Aufpunkt ist durch folgende Gleichung berechenbar.
  • Figure 00100003
  • Aus den bisherigen Formeln ist P2 herleitbar. Für P2 ergibt sich:
    Figure 00100004
  • Der wichtigste Punkt, die Abschätzung der Ausprobierrate bzw. die Auswahl der Hypothesen, welche in eine Bewertung eingehen sollen, soll nun folgend dargestellt werden.
  • Zur Veranschaulichung des Vorgehens wird auf 3 verwiesen. 3 zeigt einen x,y-Plot, in welchem Meßwerte zweier Meßgrößen eines in beschriebenen Datensatzes aufgetragen sind (weiße Symbole). Die Kenntnis der Meßgrößen ist unerheblich. Als Hintergrund zu den Symbolen ist eine Likelyhood-Verteilung aufgetragen, welche zur Verdeutlichung in 3 rechts noch einmal ohne Meßwerte dargestellt ist. Die Likelyhood nimmt von weiß nach schwarz hin zu.
  • 4 zeigt die Verknüpfung von Koordinaten eines Punktes im x,y-Plot mit den Parametern einer hypothetischen linearen Beziehung. Es ist das Prinzip aus 2 wieder erkennbar. Das Kreuz repräsentiert einen Koordinatenursprung. Dieser kann beliebig ausgewählt werden. Der Aufpunkt der Normalen ist in 4 mit einem lokalen Maximum identisch und steht gleichzeitig für eine hypothetische lineare Beziehung, welche in der Geraden dargestellt ist. Aus den Koordinaten des Punktes (Pfeil) können somit gleichzeitig die Parameter der linearen Beziehung (Formeln (8a) und (9a)) als auch die Likelyhood abgeschätzt werden. Der Vorteil der Anwendung der Hesseschen Normalform besteht also darin, daß die Menge aller sinnvollen Hypothesen aus der Abtastung einer definierten Fläche hergeleitet werden kann. Diese Fläche definiert sich durch die maximalen und minimalen Meßwerte der beiden Meßgrößen. Die Abtastrate oder besser das Intervall zwischen einzelnen Abtastpunkten sollte sich vernünftigerweise nach der Ausdehnung der Meßunsicherheiten richten. Ein Wert von 1/10 des kleinsten Meßunsicherheitintervalles liefert zumeist ausreichend genaue Abtastergebnisse.
  • Schritt 3
  • In einem dritten Schritt wird der Wertebereich der ausgewählten Meßgrößen in Intervalle unterteilt. Es werden äquidistante Intervalle empfohlen. Der Wertebereich kann als variabel gelten. Er sollte zweckmäßig aber zumindest vom kleinsten bis zum größten Wert der Meßgröße reichen. Die Länge eines Intervalls sollte den Betrag des kleinsten Meßunsicherheitsintervalls in einem der beiden Meßgrößen geteilt durch zwei nicht überschreiten. Empfohlen wird die Länge eines Betrages des kleinsten Meßunsicherheitsintervalls in einem der beiden Meßgrößen geteilt durch 10. Die Kombination aller Intervalle aus beiden Meßgrößen ergibt die Anzahl der Abtastungen und ist identisch mit dem Produkt der Anzahlen der Intervalle beider Meßgrößen. Des weiteren legt man einen beliebigen Punkt fest, welcher als Koordinatenursprung zur Anwendung der Hesseschen Normalform dient und zweckmäßig innerhalb der Fläche liegen sollte, welche durch den maximalen sowie minimalen Meßwert der beiden Meßgrößen definiert wird.
  • Die weitere Vorgehensweise ist für jeden Abtastpunkt identisch. Aus der relativen Position des Abtastpunktes (xn, yn) vom Koordinatenursprung werden entsprechend den Formeln (8a) und (9a) die Parameter P1 und P2 berechnet. Nacheinander werden nun alle Meßwerte xi, yi mit den entsprechenden Werten σxi und σyi in Formel 5 eingesetzt und die sich ergebenden Likelyhood-Werte entsprechend Formel (3a) als Logarithmen aufsummiert oder als Faktoren in Formel (3) aufmultipliziert. Als Ergebnis erhalten wir eine Gesamtlikelyhood für eine hypothetische lineare Beziehung, welche sich aus den Aufenthaltswahrscheinlichkeiten der Meßwerte errechnet. Diese Gesamtlikelyhood kann ihrem Wert entsprechend als farbige Flä che dargestellt werden, wobei die Fläche mit der in Schritt 3 angegebenen Intervallkombination identisch ist, in deren Grenzen der Abtastpunkt liegt. Auf diese Weise wurden die Grafiken in den 3 und 4 ermittelt. Die Abtastrate betrug 250 Abtastungen in x sowie y-Richtung. Die Zeit für eine Berechnung mit einem Laptop, Pentium 4, 1,2 GHz betrug ca. 20 Sekunden.
  • Schritt 4
  • In einem vierten Schritt wird aus jeder Intervallkombination ein Wert für beide Meßgrößen ausgewählt, welcher innerhalb des Intervalls oder aber auf der Grenze liegt. Als erstes werden mittels der Hesseschen Normalform die Geradenparameter (Formeln (8a) und 9(a)) hergeleitet. Diese werden in den Formel (3), (3a) und (5) zur Berechnung der Likelyhood genutzt, wie oben dargestellt. Dieser Wert kann graphisch visualisiert werden, indem die Intervallkombination als farbige Fläche in einer zweidimensionalen Ebene dargestellt wird.
  • Schritt 5
  • Ein fünfter Schritt ergibt sich aus der Tatsache, daß die vorgeschlagene Abtastung unscharf ist. Wird aus der Auswertung der Ergebnisse deutlich, daß in einem Bereich der Grafik weitere Informationen „versteckt" sein können, sind die Schritte 2 bis 4 für jedes andere beliebige Flächenintervall möglich.
  • Im fünften Schritt können aus dem Vergleich der Likelyhood-Werte Intervallkombinationen miteinander bewertet werden. Jede Intervallkombination kann gemäß den Schritten 3, 4 und 5 weiter bearbeitet werden.
  • Die Zuordnung der Meßwerte zu einer linearen Beziehung erfolgt, wenn das Fehlerintervall, oder auch die Fläche, in welcher der wahre Meßwert anzunehmen ist, diese Gerade schneidet. Als Fehlerintervall gilt die im zweiten Schritt gewählte Fehlerunsicherheit mit +/-2 mal Standardabweichung. Veranschaulicht werden die genannten Sachverhalte in 5. Diese ist identisch mit 4 mit der zusätzlichen Darstellung des Meßunsicherheitsintervalles des durch den Pfeil bezeichneten Meßwertes. Dieses Meßunsicherheitsintervall kann je nach Fragestellung als Rechteck oder Ellipsoid verwendet werden. Die rechteckige Form wird verwendet, wenn gewährleistet werden soll, daß mindestes 95% der Meßwerte einer Meßgröße zugeordnet werden sollen. Die ellipsoide Form wird gewählt, wenn 95% alle Meßwertpaare beider Meßgrößen zugeordnet werden sollen. Alle Meßwerte, welche der dargestellten hypothetischen Linearität zugeordnet werden können, wurden als schwarz eingefärbte Symbole dargestellt.
  • Wie dargestellt ist es also möglich, aus der Nutzung der Hesseschen Normalform alle Hypothesen herzuleiten, welche für eine gute Entscheidung oder Auswahl der wahrscheinlichsten Hypothese notwendig ist.
  • Schritt 6
  • In einem sechsten Schritt wird auf Basis der berechneten Likelyhood-Werte eine lineare Beziehung ausgewählt und zu dieser all diejenigen Meßwerte zugeordnet, deren Meßunsicherheitsintervall sich mit der Gerade schneidet, welche diese lineare Beziehung symbolisiert. Das Meßunsicherheitsintervall umfaßt das in Schritt 2 dargestellte Intervall von +/-2 mal Standardabweichung und kann als Ellipsoid oder Rechteck verwendet werden.
  • Die ausgewählten Meßwerte stellen einen Unterdatensatz dar, für den aufgrund des oben beschriebenen Verfahrens zu seiner Ermittlung eine funktionellen Zusammenhang in Form einer linearen Beziehung von mindestens zwei Meßgrößen erwartet werden kann. Der Unterdatensatz kann mit weiteren statistischen Methoden untersucht werden, wobei es sich gezeigt hat, daß weitere (potente) Paare von Meßgrößen exploriert werden können. Diese können mit allen vorherig benannten Schritten bearbeitet werden.
  • (B) Beispiel 1
  • Im folgenden wird die Anwendung des Verfahrens zum Ermitteln einer linearen Beziehung aus elektronischen Meßdaten, wie es oben im Detail erläutert wurde, für einen simulierten Satz von Meßdaten unter Bezugnahme auf die 6 bis 8 beschrieben.
  • Es wird von einem simulierten Satz von Meßdaten aus zwei Variablen x und y ausgegangen. Die Simulation besteht darin, daß alle Punkte aus zwei linearen Beziehungen hergeleitet wurden. 6A, links zeigt den Satz von simulierten Meßdaten, ohne daß die zugrundeliegenden Beziehungen erkennbar sind. In 6B, rechts sind die zugrundeliegenden linearen Beziehungen als Linien angedeutet. Gleichzeitig wird durch unterschiedliche Symbole dargestellt, welcher Punkt aus welcher linearen Beziehung hergeleitet wurde.
  • 7 zeigt den selben Plot, wobei im Hintergrund eine zugehörige Likelyhood-Verteilung dargestellt ist. Die verschiedenen Grauwerte repräsentieren unterschiedliche Werte der Likelyhood. Diese nimmt von weiß nach schwarz hin zu. Die schwarzen Punkte zeigen lokale Maxima an. Das Kreuz am linken oberen Rand ist in seiner Position nicht festgelegt, aber notwendig, um nach den oben beschriebene Anforderungen die eindeutige Zuordnungsfähigkeit von Koordinaten im Plot zu genau einer hypothetischen linearen Beziehung zu erreichen. Es sind im wesentlichen drei Maxima zu sehen, wenn die diejenigen außer acht gelassen werden, welche in der Nähe des Kreuzes sichtbar sind. Die Abtastrate betrug 250 in beiden Dimensionen. Dies bedeutet, daß nicht notwendigerweise alle lokalen Maxima aufgezeigt werden. Es besteht jedoch die Möglichkeit, „Regionen" herauszusuchen, in welchen andere lineare Beziehungen vermutbar sind.
  • Die den genannten drei Maxima entsprechenden hypothetischen linearen Beziehungen sind in den 8A, 8B und 8C dargestellt. s wird ersichtlich, daß die in der Simulation verwendeten linearen Beziehungen detektiert werden konnten (8A und 8B). Die Zuordnung der Punkte zu entsprechenden linearen Beziehung war mit einer Genauigkeit von 5% (Kreis...2 falsch positive) bis 25% (Rechteck...8 falsch positive und 2 falsch negative) möglich. Die dritte hypothetische Linearität ergibt sich aus einer Überlagerung der beiden ursprünglichen. Dies ist keine Fehlinterpretation, sondern weißt darauf hin, daß eine Sache unterschiedlich beschrieben oder abstrahiert werden kann. Da das hier beschriebene Verfahren unvoreingenommen „herangeht", werden auch diese Beziehungen ermittelt.
  • (C) Beispiel 2
  • Im folgenden wird die Anwendung des Verfahrens zum Ermitteln einer linearen Beziehung aus elektronischen Meßdaten, wie es oben im Detail erläutert wurde, nun für einen Satz von Meßdaten für Phloemproben aus vier verschiedenen Blättern und der Frucht eines Kürbises unter Bezugnahme auf die 9 bis 16 beschrieben.
  • Der Satz von Meßdaten wurde in Fiehn, O.: Metabolic networks of Curcubita maxima phloem, Photochemistry, 62(2003)875-886 veröffentlicht. In einem Zeitverlauf von ca. 95 h wurden ca. 24-27 Phloemproben aus vier Kürbispflanzen mit je zwei beprobten Blättern und der Frucht genommen und mittels GS/MS analysiert. Die verwendeten Meßdaten sind nor mierte Flächenwerte des GC-Chromatogramms.
  • Zunächst wird ein beliebiges Paar zweier Meßgrößen ausgewählt (Schritt 1). Die beiden genannten Meßgrößen sind im folgenden 2-Methylserine (x-Achse) und 2-O-Gycerol-galactosid (y-Achse). Die Bedeutung der Substanzen im Stoffwechsel ist für die Beschreibung des erfindungsgemäßen Verfahrens ohne Bedeutung, da es vorerst um die Suche nach hypothetischen linearen Beziehungen geht, wobei sich diese Kombination bereits auf den ersten Blick als vielversprechend zeigt (Vgl. 9A). Die verschiedenen Symbole symbolisieren die verschiedenen Organe der Pflanzen, das heißt, die vier verschiedenen Blätter sowie die der Frucht. Alle Punkte eines Organes bilden nadelförmige Cluster, welche durch lineare Beziehungen beschreibbar sein könnten.
  • Im weiteren wird für jeden Meßwert die Meßunsicherheit abgeschätzt, und diese wird im Intervall mit +/-2 mal Standardabweichung angegeben (Schritt 2). Als Meßunsicherheit wurden ein relativer Fehler von 10% Standardabweichung angenommen. Dieser Wert geht in die Berechnung der Likelyhood-Verteilung ein, welche in 9B, rechts zu sehen ist. Die Berechnung der Likelyhood-Verteilung und die entsprechende Darstellung entspricht dem Vorgehen nach den oben beschriebene Schritten 3 und 4.
  • Im folgenden Schritt geht es um die Bewertung (Schritt 5). Anhand der Grauwerte der Punkte in der Likelyhood-Verteilung können die unterschiedlichen Hypothesen bewertet werden. In 10 wurde ein lokales Maximum ausgewählt und die entsprechende hypothetische Linearität dargestellt. Auf Basis der angenommenen Meßunschärfe konnten dieser Linearität Punkte zugeordnet werden, welche ausschließlich einem Organ zugehörig sind. (+) steht hier für Blatt Nr.4. Von 25 Punkten wurden 20 erkannt. Dies würde einer Zuordnungsgenauigkeit von 20% entsprechen, wenn wir bereits wüßten, daß alle Punkte einer linearen Beziehung zuzuordnen wären. Diese Kenntnis liegt im Gegensatz zum vorherigen Abschnitt jedoch noch nicht vor. Es kann nicht verneint werden, daß es vielleicht mehrere lineare Beziehungen gibt, welche sich wie oben beschrieben in einer homogenen Punktmenge ergeben können.
  • Zwei weitere Aspekte, welche hier illustriert werden sollen, sind in den 11A, 11B und 11C dargestellt. In 11A ist der gleiche x,y-Plot wie in 10 dargestellt, allerdings unterscheidet sich die Likelyhood-Verteilung. Dies ist deshalb der Fall, da in den 11A11C ein anderer Koordinatenursprung (Kreuz) als in 10 verwendet wurde. Da jedoch das Prinzip der Hesseschen Normalform beibehalten wird, bleibt auch die eindeutige Zuordnung der Koordinaten xn und yn (Vgl. 2) zu einer Hypothese erhalten, auch wenn sich die Zuordnung verändert hat. Diese Vorgehensweise ermöglicht es, anhand verschiedener Darstellungen der selben Information unterschiedliche Eindrücke und Sichtweisen zu gewinnen.
  • Zum anderen werden verschiedene Gebiete der x,y-Plots standardmäßig unterschiedlich aufgelöst, welches dadurch kompensiert werden kann, was im oben beschriebenen Schritt 3 berücksichtigt ist.
  • Ein anderer Aspekt ist das sogenannte Herauszoomen. In 11A ist ein weißes Quadrat dargestellt, welches einen Bereich der Darstellung umrandet, der in 11C vergrößert dargestellt wurde. Innerhalb des Quadrates ist ein schwarzer Kreis sichtbar, welcher zwei lokale Maxima der Likelyhood-Verteilung umrandet. Wird ein Maximum ausgewählt, die entsprechende lineare Hypothese konstruiert, und werden gemäß des oben beschriebenen Schrittes 6 die Meßdaten zugeordnet, welche dieser linearen Beziehung zugeordnet werden können, ergibt sich 11C. Alle zugeordneten Meßwerte sind schwarz dargestellt und entstammen ausschließlich einem Organ, der Frucht. Mit dieser Vorgehensweise können lokale Maxima, welche aufgrund der begrenzten Auflösung (Intervallgröße) übersehen werden könnten, erschließbar gemacht. Sinnvollerweise kann ein grober Scan mit größeren Abtastintervallen Regionen vorselektieren, welche dann einer genaueren Untersuchung unterzogen werden.
  • Im weiteren sollen nun alle Meßwerte der bereits behandelten Beziehung von 2-O-Glycerolgalactosid und 2-Methylserin betrachtet werden, welche dem Organ Frucht entstammen. Diese sind den 11A und 11C als Dreiecke und in 12 als Rechtecke dargestellt. An diesem Unterdatensatz soll gezeigt werden, daß mit Hilfe der Beschreibung von hypothetischen linearen Beziehungen neue Zusammenhänge postuliert werden können.
  • In 13 ist der bereits aus 12. bekannte x,y-Plot mit darunterliegender Likelyhood-Verteilung in verschiedenen Auswertungsvarianten dargestellt. In 13 (außer 13A) sind hypothetische lineare Beziehungen dargestellt, denen gleichzeitig Meßwerte (schwarze Symbole) zugeordnet sind. Alle Hypothesen (außer 13B) wurden aus lokalen Maxima hergeleitet. Die Aufnahme dieser linearen Hypothese ist damit begründbar, daß sie mit der Hypothese in 13D sowie in 13F alle zugehörigen Meßwerte überschneidungsfrei erklärt. Es könnte sich also um drei vollständig unterscheidbare lineare Bereiche handeln. Zudem können lokale Maxima dadurch „verwischt" werden, daß sie sich als sogenannte Sattelpunkte oder „Schultern" ausprägen. Die Hypothese in 13C kann nahezu als Vereinigungsmenge Der 13B und 13D interpretiert werden.
  • Die Hypothese in 13E erinnert an 8B. Sie überlappt verschiedene Hypothesen. Es sind also verschiedene Scenarien möglich. Im folgenden wird diejenige gewählt, welche sich aus den 13B, 13D und 13F ergibt. Diese Gruppierung bzw. Clusterung ist in 14A dargestellt. Verschiedene Cluster werden hierbei durch unterschiedliche Symbole gekennzeichnet.
  • In 14B erfolgt eine Zusammenfassung der Meßwerte zu fortlaufenden Nummernblöcken. Die Cluster 2 und 3 sind mit der in 14A dargestellten Clusterung homogen. Cluster 1 faßt den Rest zusammen, wobei, bis auf zwei Ausnahmen, ebenfalls eine Übereinstimmung besteht.
  • Da aus der Struktur des Datensatzes bekannt ist, daß es sich wie oben beschrieben um einen Zeitbereich von 95 h handelt, welcher beprobt und wobei jede Probe aufsteigend numeriert wurde, kann geschlußfolgert werden, daß es sich bei den Clustern 2 und 3 um abgegrenzte Zeitbereiche handelt, welche gleichzeitig durch lineare Beziehungen beschreibbar sind, die mit Hilfe des Verfahrens vollständig unterschieden werden können.
  • Die Bedeutung soll noch einmal anhand von 15 hervorgehoben werden. Es sind zwei Zeitverläufe in Balkenform dargestellt. Beide beginnen mit dem Punkt 0 h um 16:00 Uhr. Im oberen Zeitverlauf werden die verschiedenen Tageszeiten Tag, Nacht, Morgendämmerung, im unteren die entsprechenden Cluster 1,2 und 3 und deren entsprechende Zeitbereiche (vgl. 14B) dargestellt. Da die Proben im Abstand von 3-5 Stunden genommen wurden, ergibt sich ein etwas unschärferer Tages- und Nachtübergang als er sich in 15. darstellt. Als Richtwerte sind für den oberen Zeitverlauf beispielhaft Zeitwerte angegeben. Aus dem unteren Zeitverlauf wird ersichtlich, daß die Längen der letzten beiden Abschnitte jeweils ungefähr 24 h lang sind. Deshalb kann die folgende Hypothese formuliert werden: Die beobachtete Pflanze zeigt mit einer bestimmten Zeitverzögerung zum Sonnenaufgang metabolische Verände rungen, welche sich in einem verändertem Verhältnis der Metaboliten 2-Methylserine und 2-O-Glycerol-Galactosid äußert (verschiedene unterscheidbare lineare Beziehungen). Diese Zeitverzögerung kann quasi als „Aufstehen" bezeichnet werden, wobei sie den Stoffwechsel für die Nacht auf den Tag umstellt. Die Pflanze beginnt also zwischen ca. 9:00 und 13:00 ihr „Tagewerk". Zum anderen scheint die jeweilig nachfolgende Nacht keine Änderungen auf das Verhältnis der Metaboliten zu zeigen. Demnach könnte dieses „Tagewerk" Bestand haben. Vielleicht weist dies auf einen akkumulativen Effekt hin.
  • Zur weiteren Auswertung wurde zwischen den Clustern 2 und 3 (vgl. 14B) ein T-Test auf alle Variablen durchgeführt. Bei 235 Variablen, einem p-Wert <0,05 ergaben sich 85 positive Ergebnisse. Von diesen 85 wurden 26 als falsch positiv erklärt, da sich das positive Ergebnis aus dem Fehlen von Meßwerten ergab. Dieses Fehlen von Meßwerten ist ein besondere Umstand, welcher darin besteht, daß aus unterschiedlichsten Gründen bei bestimmten Meßwerten keine Aussagen über den wahren Wert gemacht werden können. Ein Beispiel ist die Fehlfunktion von automatisierten Meßmethoden, bei der eine Probe nicht gemessen wurde. Das vorgeschlagene Verfahren berücksichtigt diesen Umstand der Nichtaussage, indem der analytische Fehler stellvertretend nahezu unendlich groß gewählt werden kann und der fehlende Meßwert damit in der Berücksichtigung der Punkte vernachlässigt wird. Eventuell vorhandene lineare Beziehungen werden dadurch also nicht verdeckt. Dies ist weiterhin ein Vorteil des beschriebenen Verfahrens. Nach Abzug aller falsch positiven verbleiben also 59 positive Tests. Bei einem p<0,01 verringert sich diese Anzahl auf 26.
  • In der weiteren Auswertung wurden alle 59 Variablen inklusive der Meßwerte entsprechend den Clustern 2 und 3 zu einem Datensatz zusammengefaßt und einer Faktorenanalyse unterzogen (vgl. 16). Wie ersichtlich wird, bilden beide Punktgruppen abgegrenzte Cluster. Der „Einfluß" auf der Meßgrößen auf die Faktoren wird als Loading bezeichnet.
  • In 17 ist der Einfluß der Meßgrößen auf die Faktoren 1 und 2 dargestellt. Verschieden große Kreise repräsentieren die Meßgrößen. Die Größe der Kreise dient hierbei der Abschätzung der Varianz der einzelnen Meßgrößen untereinander. Wie sichtbar, zeigen sich zwei abgegrenzte Cluster A und B. Es ist auffallend, daß alle im Datensatz vorhandenen Meßgrößen betreffend der Aminosäuren vollständig in Cluster B enthalten sind. Die Auftrennung erfolgt dabei vollständig durch Faktor 1. Es kann deshalb angenommen werden, daß es sich die geclusteren Meßgrößen auf funktionelle Zusammenhänge hinweisen. Bei der dargestellten Faktorenanalyse handelt es sich, wie oben angedeutet, um eine in der Biologie gängige Methode zur Clusterung. Wegen der Abgegrenztheit der Cluster sowie der Ergebnisse ist anzunehmen, daß es sich hier bei der vorgeschlagenen hypothetischen Clusterung um eine biologisch wertvolle Information handelt. T-Test sowie auch Faktorenanalyse stehen beispielhaft für die oben beschriebene weitere Untersuchung des gefundenen Datensatzes mit statistischen Methoden.
  • Mit Hilfe des beschriebenen Verfahrens können unvoreingenommen (hypothetische) lineare Beziehungen als Ausdruck eines funktionellen Zusammenhangs in Sätzen von Meßdaten ermittelt werden. Es wurde gezeigt, daß in vorhandenen biologischen Meßdaten lineare Beziehungen ermittelt werden können. Und es konnte gezeigt werden, daß unbekannte Zusammenhänge herausgefiltert werden können. Das Verfahren verwendet als Eingabe den analytischen Fehler, womit zufällige Varianz berücksichtigt wird. Dies führt dazu, daß einerseits hypothetische lineare Beziehungen immer mit einer genau definierten Punktmenge in Verbindung gebracht werden können. Andererseits wird verhindert, daß mögliche Hypothesen durch einen zu hohen analytischen Fehler ausgeschlossen werden. Dies ermöglicht es auch, die Unsicherheit, welche in nicht gemessenen Werten liegt, für die Hypothesengenerierung auszuschließen.
  • Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen von Bedeutung sein.

Claims (7)

  1. Verfahren zum Ermitteln einer linearen Beziehung in einer Menge elektronisch speicherbarer Meßdaten, wobei die lineare Beziehung mittels einer Geraden grafisch darstellbar ist und die Meßdaten jeweils einen einer Meßgröße zugeordneten Meßwert umfassen, das Verfahren die folgenden Schritte aufweisend: – Auswählen einer Menge von Meßwerten für mindestens zwei Meßgrößen aus der Menge elektronisch speicherbarer Meßdaten; – Zuordnen eines jeweiligen Meßunsicherheitsintervalls zu den ausgewählten Meßwerten; – Bilden einer Menge von hypothetischen linearen Beziehungen durch die Menge der ausgewählten Meßwerte; – Ermitteln von Teilwahrscheinlichkeiten für die Menge von hypothetischen linearen Beziehungen und Zuordnen der ermittelten Teilwahrscheinlichkeiten zu den hypothetischen linearen Beziehungen, wobei für eine der hypothetischen linearen Beziehungen für einen der Meßwerte eine Teilwahrscheinlichkeit ermittelt und zugeordnet wird, wenn der Meßunsicherheitsintervalls des einen der Meßwerte von der einen der hypothetischen linearen Beziehungen geschnitten wird; – Ermitteln einer Gesamtwahrscheinlichkeit für zumindest einen Teil der hypothetischen linearen Beziehungen, indem die zugeordneten Teilwahrscheinlichkeiten für zumindest den Teil der hypothetischen linearen Beziehungen aufsummiert werden; und – Ermitteln einer Rangfolge der hypothetischen linearen Beziehungen in Abhängigkeit von den ermittelten Gesamtwahrscheinlichkeiten für zumindest den Teil der hypothetischen linearen Beziehungen.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das jeweilige Meßunsicherheitsintervall der ausgewählten Meßwerte zu einer der hypothetischen linearen Beziehungen entsprechend des Bayseschen Gesetzes zugeordnet wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß beim Ermitteln der Teilwahrscheinlichkeiten für die Menge der hypothetischen linearen Beziehungen und beim Zuordnen der ermittelten Teilwahrscheinlichkeiten zu den hypothetischen linearen Beziehungen jeder der ausgewählten Meßwerte einbezogen wird.
  4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß als das jeweilige Meßunsicherheitsintervall ein Wert von +/- 2 mal die Standardabweichung nach Gaußscher Normalfunktion zugeordnet wird.
  5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die hypothetischen linearen Beziehungen auf Basis der Hesseschen Normalform für eine Geradengleichung gebildet werden.
  6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß eine Untermenge von Meßdaten für eine Untermenge von Meßwerten gebildet wird, welche die Meßdaten für Meßwerte umfaßt, für die ein oder mehrere Teilwahrscheinlichkeiten beim Ermitteln der Gesamtwahrscheinlichkeit für zumindest den Teil der hypothetischen linearen Beziehungen aufsummiert wurden.
  7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Untermenge von Meßdaten mittels eines Auswerteverfahrens statistisch ausgewertet wird.
DE102004034398A 2004-07-16 2004-07-16 Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten Expired - Fee Related DE102004034398B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102004034398A DE102004034398B4 (de) 2004-07-16 2004-07-16 Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten
US11/182,723 US7483812B2 (en) 2004-07-16 2005-07-15 Method for determining a linear relationship from measured data that can be stored electronically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004034398A DE102004034398B4 (de) 2004-07-16 2004-07-16 Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten

Publications (2)

Publication Number Publication Date
DE102004034398A1 true DE102004034398A1 (de) 2006-02-09
DE102004034398B4 DE102004034398B4 (de) 2009-12-03

Family

ID=35600548

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004034398A Expired - Fee Related DE102004034398B4 (de) 2004-07-16 2004-07-16 Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten

Country Status (2)

Country Link
US (1) US7483812B2 (de)
DE (1) DE102004034398B4 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9371032B2 (en) 2006-01-10 2016-06-21 Guardian Industries Corp. Moisture sensor and/or defogger with Bayesian improvements, and related methods
US11047722B2 (en) * 2013-12-17 2021-06-29 International Business Machines Corporation Computer based fluid flow velocity estimation from concentrations of a reacting constituent for products and services
US10739318B2 (en) * 2017-04-19 2020-08-11 Baker Hughes, A Ge Company, Llc Detection system including sensors and method of operating such

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3033785A1 (de) * 1980-09-09 1982-10-21 Messerschmitt-Bölkow-Blohm GmbH, 8000 München Einrichtung zur erkennung und verfolgung eines zieles
GB2290872A (en) * 1994-06-30 1996-01-10 Caterpillar Inc Predictive fault detection system
EP1139267A2 (de) * 2000-03-31 2001-10-04 Pfizer Products Inc. EINWERTGESTüTZTES SCREENING-VERFAHREN FÜR WECHSELWIRKUNGEN ZUR VORAUSSAGE VON IC50
US20030167152A1 (en) * 2002-02-19 2003-09-04 Mark Howard L. Testing linearity of methods of chemical analysis

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442487B2 (en) * 1999-12-06 2002-08-27 Exxonmobil Upstream Research Company Reliability measures for statistical prediction of geophysical and geological parameters in geophysical prospecting
US7039621B2 (en) * 2000-03-22 2006-05-02 Johnson & Johnson Pharmaceutical Research & Development, L.L.C. System, method, and computer program product for representing object relationships in a multidimensional space
EP1309849A2 (de) * 2000-08-10 2003-05-14 Therma-Wave, Inc. Verfahren zur interpolation in einer datenbasis zur optischen messung von diffraktiven mikrostrukturen
US6931350B2 (en) * 2003-08-28 2005-08-16 Hewlett-Packard Development Company, L.P. Regression-clustering for complex real-world data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3033785A1 (de) * 1980-09-09 1982-10-21 Messerschmitt-Bölkow-Blohm GmbH, 8000 München Einrichtung zur erkennung und verfolgung eines zieles
GB2290872A (en) * 1994-06-30 1996-01-10 Caterpillar Inc Predictive fault detection system
EP1139267A2 (de) * 2000-03-31 2001-10-04 Pfizer Products Inc. EINWERTGESTüTZTES SCREENING-VERFAHREN FÜR WECHSELWIRKUNGEN ZUR VORAUSSAGE VON IC50
US20030167152A1 (en) * 2002-02-19 2003-09-04 Mark Howard L. Testing linearity of methods of chemical analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Universitätsklinikum Freiburg: Institut für Medizinische Biometrie und Medizinische Informatik, Abt. Medizinische Informatik: Visual Bayes-Ein Lernprogramm zur Bewertung diagnos- tischer Tests. Freiburg *

Also Published As

Publication number Publication date
US7483812B2 (en) 2009-01-27
DE102004034398B4 (de) 2009-12-03
US20060015307A1 (en) 2006-01-19

Similar Documents

Publication Publication Date Title
DE102012217419B4 (de) Analyseverfahren für Röntgenstrahlbeugungsmessdaten
DE102018220941A1 (de) Auswertung von Messgrößen mit KI-Modulen unter Berücksichtigung von Messunsicherheiten
DE602004004638T2 (de) Kalibrierung von Peak-Mustern
EP0700544B1 (de) Verfahren und einrichtung zur raumfilterung
DE1598627C3 (de) Vorrichtung fur die Texturanalyse eines heterogenen Objektes
DE102004034398B4 (de) Verfahren zum Ermitteln einer linearen Beziehung aus elektronisch speicherbaren Meßdaten
DE102015206194B4 (de) Verfahren zur Kontrolle von Prüflingen sowie Vorrichtung hierfür
DE3100131A1 (de) Verfahren zur bestimmung der form eines risses
DE2534955A1 (de) Verfahren und vorrichtung zur ermittlung der groessenverteilung in einem teilchensystem
DE102015225018A1 (de) Verfahren zur Prüfung einer Mehrzahl von in gleicher Weise mit Bauteilen bestückten Bauteilträgern, Computerprogrammprodukt zur Durchführung eines solchen Verfahrens, und Prüfsystem zur Durchführung eines solchen Verfahrens
DE102005004568A1 (de) Verfahren zur Berücksichtigung von Messwerten von kalibrierten Sensoren in einme Kalmanfilter
EP2082331B1 (de) Verfahren und vorrichtung zur inkrementierung von in speicherzellen eines speichers gespeicherten zählerständen
DE102017118996B3 (de) Verfahren zur Bestimmung von einflussführenden Parameterkombinationen eines physikalischen Simulationsmodells
DE2722305A1 (de) Verfahren und vorrichtung zur bestimmung der genauigkeit einer radioaktivitaetsmessung an einer probe
DE1806615B2 (de) Verfahren und Vorrichtung zur automatischen Abfrage von Spektren
DE102022207482B4 (de) Computerimplementiertes Verfahren zum Bestimmen eines Datenqualitätsindex, Computerprogramm und Steuereinheit
EP1944608A1 (de) Messverfahren für die physikalisch-chemischen Parameter von Erdgas
DE4228934C2 (de) Vorrichtung zur Bestimmung des Vertrauensbereichs von Perzentil-Meßwerten kontinuierlicher stochastischer Schallsignale
DE102014218354B4 (de) Verfahren zur Gewinnung von in einem Ergebnis einer NMR-Messung kodierter Information
EP1986127B1 (de) Erzeugung von Endmember-Spektren
DE10340793B4 (de) Verfahren zur rechnerischen Ermittlung systematischer Fehler von prozessierten Zeitreihen-Messdaten
DE102022129835A1 (de) Verfahren zum Überwachen von Bauelementen zum Herstellen von Produkten sowie Vorrichtung
EP1338883A1 (de) Verfahren zur Analyse von Streuungen der Ergebnisse von Crash-Vorgängen
DE102008015145A1 (de) Verfahren zur Nachkalibrierung von Sensoren und zur Kalibrierung weiterer Sensoren
Schulte et al. I–we–my organization will survive it! the questionnaire to measure individual, team and organizational resilience (FITOR)

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130201