DE102007000954A1 - Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen - Google Patents

Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen Download PDF

Info

Publication number
DE102007000954A1
DE102007000954A1 DE102007000954A DE102007000954A DE102007000954A1 DE 102007000954 A1 DE102007000954 A1 DE 102007000954A1 DE 102007000954 A DE102007000954 A DE 102007000954A DE 102007000954 A DE102007000954 A DE 102007000954A DE 102007000954 A1 DE102007000954 A1 DE 102007000954A1
Authority
DE
Germany
Prior art keywords
path
resource
boolean
property
relations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102007000954A
Other languages
English (en)
Inventor
Yi Huang
Volker Dr. Tresp
Stefan Hagen Weber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102007000954A priority Critical patent/DE102007000954A1/de
Publication of DE102007000954A1 publication Critical patent/DE102007000954A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen. Das erfindungsgemäße Verfahren wird vorzugsweise zur Extraktion und anschließenden Prädiktion von Merkmalen in sog. RDF-Graphen eingesetzt, welche in einer Graphstruktur semantische Zusammenhänge zwischen entsprechenden semantischen Ressourcen und Literalen beschreiben. Durch eine geeignete Definition von Merkmalen können mit dem erfindungsgemäßen Verfahren sehr gute Prädiktionen auf der Basis eines Prädiktionsmodells vorgenommen werden, welches mit einem entsprechenden maschinellen Lernverfahren, basierend auf den extrahierten Merkmalen, gelernt wird. Das Verfahren kann in einer Vielzahl von Anwendungsbereichen eingesetzt werden. Beispielsweise eignet sich das Verfahren zur Verwendung in einem Empfehlungssystem für Produkte, in dem einem Benutzer, basierend auf seinen Eigenschaften und den Eigenschaften von entsprechenden Produkten, Empfehlungen für bestimmte Produkte ausgegeben werden. Das Verfahren kann auch in technischen Anlagen eingesetzt werden, um das Verhalten einer technischen Anlage, basierend auf vorangegangenen Daten der Anlage, zu prädizieren. Weitere Einsatzbereiche sind biologische, medizinische bzw. biomedizinische Daten, wie z. B. Gendaten, wobei mit dem erfindungsgemäßen Verfahren, basierend auf bekannten Datensätzen, entsprechende biologische, medizinische oder biomedizinische Größen prädiziert werden können.

Description

  • Die Erfindung betrifft ein Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten digitalen Informationen.
  • In einer Vielzahl von Gebieten steht heutzutage eine große Menge von Daten zur Verfügung, deren Inhalte mit entsprechenden Verfahren semantisch annotiert werden können. Auf der Basis dieser semantischen Informationen können entsprechende Prädiktionsmodelle mit maschinellen Lernverfahren gelernt werden, um anschließend aus dem semantischen Wissen Rückschlüsse ziehen zu können.
  • In neuester Zeit wird oftmals der semantische Standard RDF (RDF = Ressource Description Framework) dazu verwendet, um im World Wide Web entsprechende Informationen mit RDF-Beschreibungen semantisch zu annotieren und semantische Zusammenhänge in der Form einer Graphstruktur wiederzugeben. Um semantisch annotierte Informationen in einer Graphstruktur geeignet verarbeiten zu können, müssen aus der Graphstruktur entsprechende Merkmale extrahiert werden, wobei auf der Basis der extrahierten Merkmale mit maschinellen Lernverfahren Prädiktionsmodelle erstellt werden können, mit denen Relationen zwischen semantischen Entitäten vorhergesagt werden können.
  • Aufgabe der Erfindung ist es, ein Verfahren zur Verarbeitung von digitalen semantisch annotierten Informationen zu schaffen, mit dem durch geeignete Merkmalsextraktion auf einfache Weise ein Prädiktionsmodell erzeugt wird, mit dem Eigenschaften von semantischen Entitäten bzw. Relationen zwischen semantischen Entitäten sehr gut vorhergesagt werden können.
  • Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
  • In dem erfindungsgemäßen Verfahren werden digitale semantisch annotierte Informationen verarbeitet, wobei die digitalen Informationen Entitäten umfassend zumindest semantische Ressourcen beinhalten. Eine Ressource ist hierbei eine eindeutig identifizierte Größe mit semantischem Bedeutungsinhalt. Ferner enthalten die digitalen Informationen semantische Relationen zwischen den Entitäten, wobei diese Relationen als Tripel repräsentiert werden. Ein Tripel umfasst hierbei eine erste Entität als Subjekt, eine Eigenschaft als Prädikat und eine zweite Identität als Objekt. Durch diese Tripel-Struktur wird ein Graph aus Knoten und gerichteten Kanten gebildet, in dem jedes Tripel repräsentiert ist als ein Pfadabschnitt umfassend die erste Entität und die zweite Entität als Knoten sowie die Eigenschaft zwischen diesen Entitäten als eine von der ersten auf die zweite Entität gerichtete Kante.
  • In dem erfindungsgemäßen Verfahren werden aus dem Graphen eine Vielzahl von Pfaden extrahiert, wobei ein Pfad einen oder mehrere in dem Graphen zusammenhängende Knoten und gerichtete Kanten umfasst, wobei ein erster Pfadtyp als Anfangspunkt eine Ressource und als Endpunkt eine Eigenschaft aufweist und ein zweiter Pfadtyp als Anfangspunkt eine Ressource und als Endpunkt eine Ressource aufweist.
  • Jedem extrahierten Pfad wird in dem erfindungsgemäßen Verfahren ein boolsches Merkmal in der Form eines Tupels zugeordnet. Boolsches Merkmal bedeutet hierbei, dass das Merkmal "true" ist, wenn das Tupel vorhanden ist, und ansonsten "false" ist. Ein jeweiliges Tupel enthält hierbei als ersten Eintrag die Ressource am Anfangspunkt des extrahierten Pfads und der zweite Eintrag des Tupels hängt davon ab, ob ein erster Pfadtyp oder ein zweiter Pfadtyp vorliegt. Für den ersten Pfadtyp umfasst der zweite Eintrag die aufeinander folgenden Eigenschaften gemäß den gerichteten Kanten im extrahierten Pfad. Für den zweiten Pfadtyp umfasst der zweite Eintrag die aufeinander folgenden Eigenschaften gemäß den gerichteten Kanten im extrahierten Pfad sowie die Ressource am Endpunkt des Pfads. Durch diese Merkmalsextraktion wird in geeigneter Weise eine reduzierte graphische Information bezüglich einer Ressource in der Form von einfachen boolschen Eigenschaften gemäß entsprechenden zweiten Einträgen in dem Tupel erzeugt.
  • Auf die extrahierten boolschen Merkmale können anschließend ein oder mehrere maschinelle Lernverfahren angewendet werden, wodurch ein Prädiktionsmodell erzeugt wird, auf dessen Basis Relationen zwischen Entitäten prädiziert werden können.
  • Aufgrund der oben beschriebenen geeigneten Extraktion von boolschen Merkmalen können auch große Mengen an semantisch annotierten Informationen verarbeitet werden, und die Erfinder konnten durch entsprechende Experimente an Trainings- und Testdatensätzen nachweisen, dass das mit dem erfindungsgemäßen Verfahren erzeugte Prädiktionsmodell gute Prädiktionsergebnisse liefert.
  • In einer bevorzugten Ausführungsform kann die erfindungsgemäße Merkmalsextraktion durch die Definition einer maximalen Pfadlänge geeignet gesteuert werden, wobei nur solche Pfade extrahiert werden, deren Pfadlänge kleiner oder gleich der maximalen Pfadlänge ist. Die Pfadlänge ist hierbei durch die Anzahl an Kanten in einem Pfad definiert.
  • In einer weiteren, bevorzugten Ausführungsform der Erfindung wird für jedes boolsche Merkmal ein Wert extrahiert, der angibt, wie viele Male das boolsche Merkmal in dem Graphen auftritt. Auf diese Weise wird eine gut zu verarbeitende Information für jedes boolsche Merkmal extrahiert, welche in dem maschinellen Lernverfahren einfließen kann.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens können in dem Graphen weitere semantische Zusammenhänge durch die Generierung entsprechender Kanten erzeugt werden.
  • Insbesondere werden in dem Graphen für einen jeweiligen Pfadabschnitt, der eine in einer Ressource endende Kante aufweist, für welche keine Kante in die Gegenrichtung existiert, ein Pfadabschnitt in der Gegenrichtung erzeugt. Der Pfadabschnitt in der Gegenrichtung umfasst als erste Entität die zweite Entität des jeweiligen Pfadabschnitts, als Kante eine Eigenschaft, welche zu der Eigenschaft gemäß der gerichteten Kante des jeweiligen Pfadabschnitts invers ist, sowie als zweite Entität die erste Entität des jeweiligen Pfadabschnitts.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird die Erzeugung von nicht-aussagekräftigen Pfaden vermieden, indem festgelegt wird, dass die extrahierten Pfade keine Pfade enthalten, in denen ein Pfadabschnitt zweimal und/oder in entgegengesetzter Richtung durchlaufen wird.
  • In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird im Falle, dass bei der Extraktion der Pfade ein Pfad auftritt, der eine Ressource zweimal enthält, als extrahierter Pfad einen Pfad erzeugt, der an der Position des Pfads, an welcher die Ressource zum zweiten Mal auftritt, als Eigenschaft einen Verweis auf die Position des Pfads enthält, an der die Ressource das erste Mal auftritt. Auf diese Weise kann in geeigneter Weise mit auftretenden Zyklen umgegangen werden.
  • In einer weiteren, besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens enthält der Graph neben semantischen Ressourcen als Knoten ferner auch Literale, wobei ein Literal als Konstante angesehen werden kann. Zum Beispiel kann ein Literal ein boolsches Literal mit den Werten "true" bzw. "false" sein. Darüber hinaus kann ein Literal ein nicht-boolscher Wert aus einem vorbestimmten Wertebereich sein, beispielsweise eine Fließkommazahl oder eine Ganzzahl aus einem entsprechenden Intervall. Um aussagekräftige Merkmale auch für Literale zu erzeugen, werden in einer bevorzugten Ausführungsform boolsche Merkmale, deren Tupel einen zweiten Eintrag enthalten, der mit einem nicht-boolschen Literal endet, kategorisiert. Beispielsweise können solche Kategorien entsprechende Wertebereiche sein, wobei ein boolsches Merkmal einer entsprechenden Kategorie zugeordnet wird, wenn das nicht-boolsche Literal im Wertebereich der entsprechenden Kategorie liegt.
  • In einer weiteren, besonders bevorzugten Ausführungsform der Erfindung können ferner Relationen zwischen einzelnen Ressourcen aus Gruppen von Ressourcen geeignet prädiziert werden. Hierbei existiert eine erste Gruppe von Ressourcen und eine zweite Gruppe von Ressourcen, wobei zwischen der ersten und zweiten Gruppe die entsprechenden Relationen zu prädizieren sind. Erfindungsgemäß werden hierbei geeignete Relations-Merkmale zwischen diesen Gruppen dadurch erzeugt, dass diejenigen boolschen Merkmale, welche jeweils ein Tupel darstellen, dessen erster Eintrag einer ersten Ressource aus der ersten Gruppe entspricht, und dessen zweiter Eintrag einem zweiten Pfadtyp entspricht, dessen Endpunkt eine zweite Ressource aus der zweiten Gruppe ist, in ein boolsches Relations-Merkmal zwischen der ersten Ressource und der zweiten Ressource umgewandelt wird, wobei in einem boolschen Relationsmerkmal das entsprechende boolsche Merkmal derart modifiziert wird, dass die zweite Ressource im zweiten Eintrag durch die Eigenschaft ersetzt wird, dass die aufeinander folgenden Eigenschaften gemäß dem zweiten Eintrag zu einer Ressource aus der zweiten Gruppe führen.
  • In einer weiteren Variante des erfindungsgemäßen Verfahrens wird das Prädiktionsmodell dadurch erzeugt, dass auf die boolschen Merkmale ein oder mehrere überwachte Lernverfahren angewendet werden. In einer Ausgestaltung des Verfahrens werden auf die boolschen Merkmale insbesondere ein oder mehrere lernende Klassifizierungsverfahren angewendet, wobei diese Klassifizierungsverfahren an sich bekannt sind. Folgende Verfahren werden vorzugsweise verwendet:
    • – ein Naive Bayes Klassifizierer;
    • – Logistische Regression;
    • – Support Vector Machines;
    • – Gaussian Process Classification;
    • – Kernel Smoothing.
  • In einer besonders bevorzugten Ausführungsform werden die digitalen semantisch annotierten Informationen basierend auf RDF (RDF = Ressource Description Framework) beschrieben.
  • Das erfindungsgemäße Verfahren kann in beliebigen Gebieten eingesetzt werden. Beispielsweise können die digitalen semantisch annotierten Informationen ein technisches System betreffen, und mit dem erzeugten Prädiktionsmodell kann das Verhalten des technischen Systems bei vorgegebenen Parametern des technischen Systems prädiziert werden. Ebenso können die digitalen semantisch annotierten Informationen Eigenschaften von Benutzern und Bewertungen von Benutzern zu Produkten und/oder Diensten und/oder anderen Benutzern umfassen und mit dem erzeugten Prädiktionsmodell können Bewertungen von den jeweiligen Benutzern in Abhängigkeit von den Eigenschaften der jeweiligen Benutzer und/oder der Dienste und/oder der anderen Benutzer prädiziert werden, wobei insbesondere Empfehlungen für einen jeweiligen Benutzer ausgebbar sind. Auf diese Weise kann ein Empfehlungssystem für Produkte bzw. Dienstleistungen geschaffen werden, bei dem einem Benutzer die für ihn geeigneten Produkte empfohlen werden. Ebenso kann dieses System beispielsweise in sozialen Netzwerken eingesetzt werden, in denen sich zueinander passende Personen suchen. Auch hier können Empfehlungen ausgegeben werden, welche Benutzer sehr gut aufgrund ihrer Eigenschaften zueinander passen.
  • Ein weiterer Anwendungsbereich der Erfindung ist der Bereich der Biologie bzw. der Medizin. Hierbei umfassen die digitalen semantisch annotierten Informationen biologische und/oder biomedizinische und/oder medizinische Entitäten, wobei mit dem oder den maschinellen Lernverfahren Relationen zwischen diesen Entitäten gelernt werden. Die digitalen semantisch an notierten Informationen umfassen dabei vorzugsweise Gendaten und mit dem gelernten Prädiktionsmodell können dann Funktionen von Genen prädiziert werden. Ebenso ist es möglich, dass mit dem gelernten Prädiktionsmodell Wirkungen von Medikamenten prädiziert werden können.
  • Neben dem oben beschriebenen Verfahren umfasst die Erfindung ferner eine Vorrichtung zur rechnergestützten Prädiktion von Relationen zwischen Entitäten aus digitalen semantisch annotierten Informationen, wobei die Vorrichtung ein Prädiktionsmittel umfasst, welches auf einem Prädiktionsmodell beruht, das mit einer beliebigen Variante des oben beschriebenen erfindungsgemäßen Verfahrens erzeugt wurde.
  • Die Erfindung umfasst ferner ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung einer beliebigen Variante des oben beschriebenen erfindungsgemäßen Verfahrens.
  • Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
  • Es zeigen:
  • 1 ein Beispiel einer RDF-Graphstruktur, welche gemäß einer Ausführungsform des erfindungsgemäßen Verfahrens verarbeitet werden kann, und
  • 2 eine Tabelle, welche Ergebnisse des erfindungsgemäßen Verfahrens wiedergibt.
  • In 1 ist ein Beispiel einer RDF-Graphstruktur wiedergegeben, welche Entitäten in der Form von semantischen Ressourcen und Literalen als Knoten sowie Relationen zwischen den Entitäten als Kanten enthält. RDF steht hierbei für Ressource Description Framework und stellt eine semantische Annotierung von Informationen dar. RDF wird insbesondere im World Wide Web als Basis des sog. Semantic Web eingesetzt und mit Hilfe von RDF wird die Suche nach semantischen Inhalten in entsprechend annotierten Dokumenten ermöglicht.
  • Das zentrale Element der RDF-Syntax ist eine gekennzeichnete Verbindung zwischen zwei Entitäten, welche durch ein RDF-Tripel in der Form (s, p, o) wiedergegeben wird, wobei s für Subjekt, p für Prädikat bzw. Eigenschaft und o für Objekt steht. Basierend auf einer Vielzahl dieser Tripel kann eine gesamte Wissensbasis als ein gerichteter und gegebenenfalls auch zyklischer Graph wiedergegeben werden, der Subjekte und Objekte als Knoten und eine entsprechende Eigenschaft als gerichtete Kante von Subjekt nach Objekt enthält. Es können somit Abfragen bezüglich Relationen zwischen Entitäten sowie das Lernen von Relationen basierend auf einer sehr einfachen skalierbaren Struktur in der Form des RDF-Graphen beschrieben werden.
  • Gemäß der RDF-Syntax stellt jede Ressource die Instanz einer Klasse oder gegebenenfalls von mehreren Klassen dar, wobei die Instanzierung durch eine entsprechende Eigenschaft "type" in der RDF-Sytax wiedergegeben wird. Die einzelnen Klassen sind wiederum in Klassen-Hierarchien organisiert, d. h. es existieren Unterklassen von Oberklassen. Ferner sind Eigenschaften als Klassen definiert, so dass sie ebenfalls hierarchisch organisiert sein können, beispielsweise könnte eine Eigenschaft "naher Freund" eine Unterklasse der hierarchisch höheren Eigenschaft "Freund" sein. Das Vokabular der RDF-Beschreibungssprache wird durch das RDF-Schema (RDFS) repräsentiert und beschreibt die detaillierte Menge an Klassen und Relationen zwischen Klassen in einer vorgegebenen Domäne. Darüber hinaus definiert das RDF-Schema Einschränkungen im Hinblick der möglichen Typen des Subjekts (Domäne) und des Objekts (Bereich) eines RDF-Tripels.
  • 1 zeigt ein Beispiel einer RDF-Graphstruktur, wobei die Knoten R1 bis R13 Ressourcen und die Knoten L1 bis L3 Literale darstellen. Eine Ressource ist dabei eine Entität mit einem eindeutigen Identifizierer und ein Literal stellt eine Konstante dar. Literale können Buchstaben-Strings sein, welche als Plain-Literale bezeichnet sind. Ferner gibt es Typed-Literale, die Fließkommazahlen, boolsche Ausdrücke, Ganzzahlen usw. umfassen. In dem Beispiel der 1 treten nur Typed-Literale auf. In der RDF-Beschreibung stellt jedes Subjekt immer eine Ressource dar, wohingegen ein Objekt in einem RDF-Tripel entweder eine Ressource oder ein Literal sein kann.
  • Der obere, nicht im Rechteck 1 liegende Teil des Graphen stellt hierbei eine RDF-Struktur aus einem Dokument dar, welche Eigenschaften und Verwandtschaftsbeziehungen einer Person mit dem Namen Bill beschreibt, welche in 1 den Ursprungsknoten bildet und als R1 bezeichnet ist. Der Teil des Graphen innerhalb des Rechtecks 1 gibt das entsprechende RDFS-Schema wieder, wobei der obere Teil und das untere Schema über gerichtete Kanten T1 und P1 miteinander verbunden sind, wobei die Kante T1 für die RDF-Eigenschaft "type" und die Kante P1 für die Eigenschaft "lebt in" steht. Die Eigenschaft P1 steht hierbei dafür, dass die Ressource, an der die gerichtete Kante der Eigenschaft beginnt, an dem Ort lebt, der durch die Ressource beschrieben wird, an dem die gerichtete Kante endet. Innerhalb des Rechtecks 1 sind entsprechende Klassen C1, C2, C3, ..., C7 enthalten, welche wiederum mit entsprechenden Kanten T2 mit den hierarchisch höher liegenden Klassen C0 bzw. C0' verbunden sind. Die gerichtete Kante T2 steht hierbei für die Eigenschaft "subclass of", d. h. "Unterklasse von", gemäß dem RDFS-Schema. Im Einzelnen sind die Klassen C0, C0' sowie C1 bis C7 wie folgt definiert:
    C1 definiert die Klasse "historisch" und C2 die Klasse "romantisch", welche Unterklassen der Klasse C0 sind, welche für "Buch" steht. C1 umfasst somit Bücher mit historischem und C2 Bücher mit romantischem Inhalt. C3 repräsentiert die Klasse "Amerika" und C7 die Klasse "Europa", welche Unterklassen der Klasse C0' sind, welche "Ort" repräsentiert. Die Klasse C4 repräsentiert die Ressource "Thriller" und stellt eine Unter kategorie der Klasse C0 "Buch" dar. Die Klasse C5 steht für "Person" und die Klasse C6 für "Film".
  • Im oberen Teil des RDF-Graphen sind die einzelnen Knoten über entsprechende Eigenschaften in der Form von gerichteten Kanten P2 bis P11 miteinander verbunden. Die Eigenschaften sind hierbei wie folgt:
    Die Eigenschaft P2 steht für "hat gekauft" und beschreibt, dass die Ressource am Anfangspunkt der entsprechenden gerichteten Kante die Ressource am Endpunkt der Kante gekauft hat. Die Kante P3 steht für "Elternteil" und beschreibt, dass die Ressource, an der die entsprechende gerichtete Kante beginnt, einen Elternteil hat, welcher der Ressource entspricht, die an der gerichteten Kante endet. Die Ressource P4 steht für "hat Kind" und beschreibt, dass die Ressource, an der die entsprechende gerichtete Kante beginnt, ein Kind hat, welches der Ressource am Ende der gerichteten Kante entspricht. Die Eigenschaft P5 bedeutet "hat Schwester" und beschreibt, dass die Ressource am Anfang der entsprechenden gerichteten Kante eine Schwester hat, welche der Ressource am Ende der Kante entspricht. Die Eigenschaft P6 steht für "Geschlecht" und beschreibt, dass die Ressource am Anfang der gerichteten Kante ein Geschlecht (d. h. männlich oder weiblich) aufweist, welches der Ressource am Ende der Kante entspricht. Die Eigenschaft P7 steht für "hat Haarfarbe" und beschreibt, dass die Ressource am Anfang der entsprechenden gerichteten Kante eine Haarfarbe aufweist, welche durch die Ressource am Ende der Kante repräsentiert wird. Die Eigenschaft P8 steht für "hat Freundin" und beschreibt, dass die Ressource am Anfang der entsprechenden gerichteten Kante eine Freundin hat, welche der Ressource am Ende der Kante entspricht. Die Eigenschaft P9 steht für "hat Freund" und beschreibt, dass die Ressource am Anfang der entsprechenden gerichteten Kante die Ressource am Ende der Kante als Freund hat. Die Ressource P10 steht für "Alter" und beschreibt, dass die Ressource am Anfang der entsprechenden gerichteten Kante ein Alter aufweist, welches durch ein entsprechendes Literal am Ende der gerichteten Kan te festgelegt ist. Die Eigenschaft P11 steht für "Autor" und beschreibt, dass die Ressource am Anfang der entsprechenden gerichteten Kante von einem Autor geschrieben worden ist, welcher der Ressource am Ende der Kante entspricht.
  • Die einzelnen in 1 dargestellten Ressourcen R1 bis R13 sowie Literale L1 bis L3 sind wie folgt definiert:
    Die Ressource R1 steht für eine Person mit dem Namen "Bill", die Ressource R2 steht für eine Person mit dem Namen "Jack", die Ressource R3 steht für eine Person mit dem Namen "Sue", die Ressource R4 steht für das Geschlecht "männlich", die Ressource R5 steht für die Haarfarbe "blond", die Ressource R6 steht für ein Buch mit dem Titel "Vom Winde verweht", die Ressource R7 steht für eine Person mit dem Namen "Tick", die Ressource R8 steht für eine Person mit dem Namen "Track", die Ressource R9 steht für eine Person mit dem Namen "Trick", die Ressource R10 steht für eine Person mit dem Namen "Patricia", die Ressource R11 steht für eine Person mit dem Namen "Mitchel", die Ressource R12 steht für ein Buch mit dem Titel "Shining", die Ressource R13 steht für einen Film mit dem Titel "Titanic". Das Literal L1 repräsentiert die Zahl 7, das Literal L2 die Zahl 11 und das Literal L3 die Zahl 10, wobei in der Ausführungsform der 1 hierdurch Alterszahlen repräsentiert werden.
  • Wie sich anschaulich aus 1 ergibt, werden somit durch den RDF-Graphen semantische Entitäten und Zusammenhänge zwischen den Entitäten wiedergegeben. Beispielsweise entspricht der Pfad mit den Knoten und Kanten R1, P2, R6, T1, C1, T2 und CO der semantischen Beschreibung, dass Bill sich ein Buch mit historischem Inhalt mit dem Titel "Vom Winde verweht" gekauft hat. Ebenso steht der Pfad mit den Knoten und Kanten R1, P4, R2, P4, R9, P10 und L3 für den Inhalt, dass Bill ein Kind mit dem Namen Jack hat, wobei Jack wiederum ein Kind mit dem Namen Trick hat, wobei Trick zehn Jahre alt ist.
  • Die in 1 dargestellte RDF-Struktur in der Form eines gerichteten Graphen stellt eine Repräsentation dar, welche besonders gut dazu geeignet ist, um aussagekräftige Merkmale hieraus abzuleiten. Die nachfolgend beschriebene Ausführungsform der Erfindung leitet hierbei in geeigneter Weise entsprechende Merkmale ab, welche mit bekannten maschinellen Lernverfahren sehr gut gelernt werden können. Durch Anwenden von Lernverfahren wird ein Prädiktionsmodell erzeugt, welches dann auf vorhandene oder neue Ressourcen angewendet werden kann, um Relationen zwischen diesen Ressourcen vorherzusagen.
  • Im Folgenden wird zunächst beschrieben, auf welche Weise aus einem RDF-Graphen geeignete Merkmale abgeleitet werden. Erfindungsgemäß werden aus den RDF-Tripeln boolsche Merkmale extrahiert, wobei ein boolsches Merkmal "true" ist, wenn eine Ressource eine entsprechende boolsche Eigenschaft aufweist und ansonsten "false" ist.
  • Zunächst wird der Fall betrachtet, dass die Wahrscheinlichkeit vorhergesagt wird, dass eine bestimmte Ressource si eine entsprechende boolsche Eigenschaft pj aufweist. Es wird davon ausgegangen, dass das RDF-Schema sowie der Typ von jeder Ressource bekannt ist. Ferner wird vorausgesetzt, dass alle Tripel, an denen sich ein RDF-Schema RDFS gemäß 1 anschließt, in dem Graphen hinzugefügt wurden. Es wird im Folgenden ein verbundener RDF-Graph betrachtet, jedoch kann das Verfahren auch eingesetzt werden, wenn der RDF-Graph in mehrere getrennte Graphen unterteilt ist.
  • Es wird angenommen, dass ein boolsches Literal pj nur basierend auf Merkmalen prädiziert werden kann, welche von dem Subjekt si dieses Literals abgeleitet sind. Es gilt somit: pj/Fi wobei Fi ein geeigneter Satz von Merkmalen ist, der das Subjekt si beschreibt. Erfindungsgemäß kann diese Abhängigkeit durch beliebige probabilistische oder nicht-probabilistische Klassifizierungsverfahren modelliert werden.
  • Es wird erfindungsgemäß aus dem RDF-Graphen ein Satz von Merkmalen zum Trainieren nachfolgender maschineller Lernverfahren erzeugt. Vorausgesetzt wird, dass das RDF-Schema und die Domäne für die boolsche Eigenschaft pj bekannt sind. Ein Satz an Trainings-Merkmalen ist durch alle Ressourcen in dem RDF-Graphen definiert, welche zu einer spezifischen Domäne gehören. Diese Ressourcen definieren die Trainings-Instanzen.
  • Ein wesentlicher Aspekt der vorliegenden Erfindung ist die Erzeugung von geeigneten boolschen Merkmalen. In der hier beschriebenen Ausführungsform wird dabei zunächst in einem (optionalen) Vorverarbeitungsschritt für jedes Tripel des RDF-Graphen ein inverses Tripel erzeugt, falls dieses inverse Tripel nicht existiert. D. h., falls (s, p, o) ein Tripel ist und falls o kein Literal ist, wird das Tripel (o, p = inverse (p), s) hinzugefügt. Es gilt hierbei insbesondere (s, inverse (p), o) = (s, p, o).
  • Ausgehend von einer vorgegebenen Ressource bzw. Trainings-Instanz si werden in einem ersten Schritt aus dem RDF-Graphen alle möglichen Pfade bis zu einer vorbestimmten Pfadlänge K generiert, wobei K ein wichtiger Einstellparameter ist. In der Graphen-Theorie ist ein Pfad in einem Graphen eine Sequenz von Knoten, so dass von jedem seiner Knoten eine Kante zu einem nächsten Knoten in der Sequenz existiert. Die Länge eines Pfades K ist die Anzahl an Kanten, die der Pfad verwendet. Es wird ein sog. legaler Pfad Lpath als ein Tupel durch alle Eigenschaften und Ressourcen entlang des Pfades definiert, d. h. der k-te Pfad für ein Subjekt si ist wie folgt festgelegt: Lpathi,k = (si, pi,k,1, ri,k,1, pi,k,2, ri,k,2, ..., ri,k,l-1(,pi,k,l)) l ≤ K
  • Hierbei ist r ..., ..., ... eine Ressource auf dem legalen Pfad und p ..., ..., ... ist eine Eigenschaft, welche von einem Subjekt zu einem Ob jekt durchlaufen wird, d. h. entlang der Richtung des Pfads. p ..., ..., ... kann eine ursprüngliche Eigenschaft im Graphen oder die inverse Eigenschaft sein, welche wie oben beschrieben eingefügt wurde. Der legale Pfad kann mit einer Ressource oder mit einer Eigenschaft enden. Folgende zwei Einschränkungen sind für einen legalen Pfad vorgegeben. Die erste Einschränkung besteht darin, dass der legale Pfad sich nicht umdrehen kann. D. h., falls (s, p, o) auf dem legalen Pfad liegt, kann (o, inverse (p), s) nicht auf dem legalen Pfad liegen. Als zweite Einschränkung kann ein bestimmtes Tripel (s, p, o) nicht mehr als einmal in einem Pfad vorhanden sein.
  • In der hier beschriebenen Ausführungsform wird folgendes Verfahren verwendet, falls ein Zyklus in dem Pfad auftritt:
    Falls eine Ressource im Pfad aufgefunden wird, welche schon einmal auf dem legalen Pfad vorhanden war, wird eine Kopie des legalen Pfads zu der Menge an legalen Pfaden hinzugefügt, wobei diese Kopie durch die eingefügte Eigenschaft in der Form equal (m) endet, wobei m die Position in dem legalen Pfad ist, an der die identische Ressource zum ersten Mal aufgetreten ist.
  • Für eine Trainings-Instanz si werden erfindungsgemäß die abgeleiteten boolschen Eigenschaften p ~ eingeführt, welche in zwei unterschiedlichen Typen auftreten. Typ 1 entspricht p ~ = pi,k,1, pi,k,2, ..., pi,k,l und repräsentiert die Verknüpfung aller Eigenschaften in einem legalen Pfad. Typ 2 entspricht dem Fall, dass das letzte Element in einem legalen Pfad eine Ressource rm ist und lautet wie folgt: p ~i,k,m = pi,k,1, pi,k,2, ..., pi,k,l, rm. Auf diese Weise wird ein boolsches Merkmal in der Form einer boolschen RDF-Aussage (si, p ~) für jedes p ~ eingeführt, das aus einem legalen Pfad beginnend mit si abgeleitet werden kann. Die graphische Information im lokalen Bereich von si wird somit auf einen Satz von einfachen boolschen Eigenschaften von si reduziert. Hierdurch kann auf einfache Weise ein Satz von Merkmalen erzeugt werden. Insbesondere kann für jedes p ~ ein Merkmal eingeführt werden, wobei ein dem Merkmal zugeordneter Va riablenwert für eine Ressource si anzeigt, wie oft p ~ für dieses si existiert. Erfindungsgemäß werden nicht alle möglichen Pfade als Variablenmerkmale dargestellt, sondern nur diejenigen, welche in dem entsprechenden RDF-Graphen tatsächlich vorhanden sind.
  • Gemäß dem oben dargelegten Verfahren zur Extraktion von boolschen Merkmalen in der Form (si,
    Figure 00150001
    ) können eine Mehrzahl von interessanten und aussagekräftigen Merkmalen abgeleitet werden. Gemäß dem Graphen der 1 können insbesondere folgende Merkmale für die Ressource R1, d. h. für die Person Bill abgeleitet werden:
    • – Bill hat blonde Haare;
    • – Bill hat das Buch mit dem Titel "Vom Winde verweht" gekauft;
    • – Bill hat ein Kind, welches wiederum ein Kind hat (dieses Merkmal tritt dreimal auf, da das Kind von Bill drei Kinder hat);
    • – Bill hat ein Kind, das Jack heißt;
    • – Bill hat eine Schwester, welche einen Freund hat, wobei der Freund dieses Freunds Bill ist; hierbei wird die Eigenschaft equal (1) verwendet.
  • Die Eigenschaften p ~ sind lokale Eigenschaften, es können jedoch auch komplexere logische Aussagen, beispielsweise mit dem Operator AND, abgeleitet werden, wie das beispielsweise bei FOIL-basierten Lernverfahren im Stand der Technik der Fall ist. Die Suche nach geeigneten logischen Aussagen ist jedoch zeitaufwändig und, falls erforderlich, sollte diese Suche durch entsprechende Lernmaschinen, welche die Merkmale verwenden, durchgeführt werden.
  • Ausgehend von der durchschnittlichen Anzahl N von Kanten eines Knotens ist die Anzahl von möglichen boolschen Eigenschaften p ~ vom Typ 1 nach oben durch NK begrenzt, wobei K der oben erwähnte Einstellparameter K für die Pfadlänge ist. Somit sollten sowohl N als auch K nicht zu groß werden. Für L Objekte erhält man NK × L mögliche Merkmale, die aus Typ 2 Eigenschaften abgeleitet werden können. Da L oft sehr groß ist, sollten nur informative Typ 2 boolsche Eigenschaften verwendet werden.
  • In dem oben beschriebenen Verfahren zur Erzeugung von boolschen Merkmalen ist ferner zu berücksichtigen, dass auch für Typ 2 Eigenschaften, welche statt mit einer Ressource mit einem Literal enden, geeignete Eigenschaften erzeugt werden können. Dies geschieht insbesondere dadurch, dass entsprechende Kategorisierungen der Literale vorgenommen werden. Für eine solche Kategorisierung könnten z. B. folgende Eigenschaften der Ressource R2, d. h. der Person Jack, herangezogen werden:
    R2 hat ein Kind im Alter von sieben Jahren,
    R2 hat ein Kind im Alter von zehn Jahren,
    R2 hat ein Kind im Alter von elf Jahren.
  • Hieraus könnten die folgenden kategorisierten bzw. aggregierten Merkmale abgeleitet werden:
    R2 hat Kinder mit einem durchschnittlichen Alter von 9,33 Jahren,
    R2 hat Kinder mit einem minimalen Alter von sieben Jahren.
  • In der hier beschriebenen Ausführungsform wird für Plain-Literale in der Form von Strings nur angezeigt, ob ein vorbestimmtes Plain-Literal existiert oder nicht.
  • Mit Hilfe der im Vorangegangenen beschriebenen abgeleiteten boolschen Merkmale können nunmehr Relationen zwischen Ressourcen prädiziert werden. Hierbei soll für ein RDF-Tripel (si, pj, ok), bei dem ok nunmehr eine Ressource und kein Literal ist, vorhergesagt werden, mit welcher Wahrscheinlichkeit dieses Tripel vorhanden ist.
  • Erfindungsgemäß wird zwischen einer einseitigen Prädiktion und einer zweiseitigen Prädiktion unterschieden. Bei der ein seitigen Prädiktion betrachtet man ein Tripel (si, pj, ok) und ausgehend hiervon definiert man sich eine spezifische boolsche Eigenschaft pj,k für jede betrachtete Trainings-Instanz si. Ausgehend von dieser boolschen Eigenschaft können dann die im Vorangegangenen beschriebenen Methoden angewendet werden. Betrachtet man beispielsweise als Ausgangspunkt die Tripel in der Form (Person, hat gekauft, Buch), ist abhängig von dem vorherzusagenden Buch das neue boolsche Merkmal (Person, hat Buch mit dem Titel "Vom Winde verweht" gekauft), (Person, hat Buch mit dem Titel "Shining" gekauft), usw.
  • Neben der einseitigen Prädiktion werden in einer Ausführungsform der Erfindung zweiseitige Prädiktionen vorgenommen. Bei diesen Prädiktionen wird ein RDF-Tripel (si, pj, ok) betrachtet, bei dem ok eine Ressource ist. Das Prädiktions-Problem ist nun zweiseitig, d. h. ausgehend von zwei Ressourcen si und ok soll die Wahrscheinlichkeit vorhergesagt werden, dass das Tripel (si, pj, ok) vorhanden ist.
  • Es wird ein Modell angenommen, bei dem diese Wahrscheinlichkeit nur von den einbezogenen Ressourcen si und ok abhängt. Die Merkmale, die aus der gegenseitigen Relation ableitbar sind, können somit wie folgt modelliert werden: (si, pj, ok)|Fi, Fk, Fi,k.
  • Zunächst wird die Erzeugung eines Trainingssatzes betrachtet. Ausgehend von der Eigenschaft pj besteht der Trainingssatz aus allen Paaren si, ok, wobei si die Domäne von pj und ok der Bereich von pj ist. Die Größe des Trainingssatzes ist typischerweise sehr viel größer als der Trainingssatz, der bei der einseitigen Prädiktion betrachtet wird. Fi und Fk sind die boolschen Merkmale, welche für si bzw. ok wie im Vorangegangenen beschrieben erzeugt wurden.
  • Betrachtet man nunmehr einen legalen Pfad, der bei si beginnt und bei ok endet (oder umgekehrt), wird dieser Pfad von dem Satz von legalen Pfaden entfernt, welche von si ausgehen, und zu dem Satz von sog. legalen gemeinsamen Relationspfaden hinzugefügt. Die Ressource ok am Ende wird durch die Eigenschaft "EqualToObject" ersetzt, was der Eigenschaft entspricht, dass die Kette der vorangegangenen Eigenschaften in einem Objekt aus dem Raum der Objekte endet, zu denen ok gehört. Analog wie im Vorangegangenen beschrieben, wird nunmehr eine entsprechende boolsche Eigenschaft p ~ eingeführt, und ein Merkmal wird zu der Merkmalsgruppe Fi,k hinzugefügt, wobei dieses Merkmal "true" ist, wenn (si,
    Figure 00180001
    ) existiert. Die Repräsentation von gemeinsamen Merkmalen Fi,k erlaubt beispielsweise das Lernen der Eigenschaft (si, hat den Großvater, ok) durch Verwendung des bei si beginnenden Pfads (hat Elternteil, hat Elternteil, EqualToObject). Die Lernmaschine hat hierbei eine AND-Verknüpfung zwischen dem entsprechenden Merkmal von ok mit dem boolschen Literal (männlich) zu ermitteln.
  • Bei der einseitigen Prädiktion von Relationen sowie bei einer Prädiktion von Literalen kann jedes geeignete maschinelle Lernverfahren eingesetzt werden, welche den typischerweise sehr großen Satz an boolschen Merkmalen verarbeiten kann. Falls ein boolsches Literal, d. h. "true" oder "false", vorhergesagt werden soll, kann ein binärer Klassifizierer geeignet sein.
  • Bei der zweiseitigen Prädiktion können Relationen ebenfalls mit einem geeigneten binären Klassifizierer vorgenommen werden. Bei der zweiseitigen Relations-Prädiktion ist die Anzahl an Merkmalen wesentlich größer als bei der einseitigen. Falls beispielsweise R die Anzahl an Merkmalen für si bzw. ok ist, gibt es bei der zweiseitigen Relations-Prädiktion insgesamt 2R Merkmale und bis zu R2 Trainingsinstanzen zum Lernen entsprechender Lernalgorithmen. Es können somit nur Lernalgorithmen eingesetzt werden, welche eine große Anzahl an Merkmalen und Trainingsdaten verarbeiten können. In bestimmten Fällen führt nur eine nicht-lineare Kombination von Merkmalen zu einer geeigneten Merkmalsrepräsentation. Um das Lernen zu vereinfachen, wird gegebenenfalls eine Vorstrukturierung der Merkmale vorgenommen. Falls ein Kernel-basierter Ansatz zum Lernen verwendet wird, kann der geeigente Kernel in Abhängigkeit von den Ressourcen si und ok wie folgt gewählt sein: k((si, ok), (si, ok')) = ks(si, si')ko(ok, ok') + ks,p(si, si', ok, ok') (1)wobei k(si, si') ein Kernel basierend nur auf Fi ist, ko(ok, ok') ein Kernel nur basierend auf Fk ist, und ks,p(si, si', ok, ok') ein Kernel nur basierend auf Fi,k ist. Das Kernel-Produkt hat konjunktiven Charakter.
  • Das erfindungsgemäße Verfahren zeichnet sich gemäß den obigen Ausführungen dadurch aus, dass in geeigneter Weise boolsche Merkmale mit Hilfe von sog. legalen Pfaden festgelegt werden, wobei bei einer zweiseitige Prädiktion, bei der die Relationen zwischen zwei Gruppen von Objekten betrachtet werden, die Pfade zwischen den Gruppen entsprechend modifiziert werden. Das Verfahren kann für beliebige semantisch annotierte Daten eingesetzt werden, wobei in der hier beschriebenen Ausführungsform RDF-Graphen betrachtet wurden. Ein Anwendungsbereich ist beispielsweise ein computergestütztes Empfehlungssystem, welches aus Benutzerdaten und Produktdaten gelernt wurde, woraufhin dann anhand der Eigenschaften eines Benutzers eine entsprechende Empfehlung für ein Produkt abgegeben wird. Ebenso kann das System beispielsweise zur Beurteilung von technischen Anlagen eingesetzt werden, wobei zunächst basierend auf vorhandenen Daten ein Prädiktionsmodell gelernt wird, mit dem anschließend bestimmte Verhaltensweisen der technischen Anlage prädiziert werden können. Beispiele von technischen Anlagen, auf welche das Verfahren angewendet werden kann, sind Automatisierungsanlagen, Energieerzeugungsanlagen und dergleichen. Weitere Anwendungsbereiche der Erfindung sind medizinische, biomedizinische bzw. biologische Daten, insbesondere Gendaten, wobei das Modell basierend auf bekannten Gendaten gelernt wird und anschließend Prädiktionen über bestimmte Funktionen von Genen und/oder anderen medizinischen bzw. biologischen Entitäten gemacht werden können. Beispielsweise können die Prädiktionen dazu benutzt werden, um in der pharmazeutischen Wirkstoffforschung neue Pharmazeutika zur Behandlung von Krankheiten aufzufinden. Ein anderer Anwendungsbereich sind soziale Netzwerke im Internet, in denen eine Vielzahl von Personen miteinander kommunizieren, wobei anhand bestimmter Eigenschaften bzw. Präferenzen der Personen entsprechende Kontakte zu Benutzern im Netzwerk vorgeschlagen werden können.
  • Das erfindungsgemäße Verfahren wurde für zwei Datensätze getestet. Der erste Datensatz betrifft ein Film-Empfehlungssystem. Empfehlungen werden hierbei basierend auf früheren Benutzerbewertungen von Filmen sowie Attributen der Benutzer und der Filme gemacht. Der zweite Datensatz betrifft die Prädiktion von Gen-Funktionen basierend auf Gen-Attributen und Gen-Interaktionen. Es wurden Experimente für unterschiedliche lernende Klassifizierungsverfahren durchgeführt. Die verwendeten Klassifizierer sind der Naive Bayes Klassifizierer (NB), logistische Regression (LogR), Support Vector Machines (SVM), Gaussian Process Classification (GPC) und Kernel Smoothing (ksm). Für die letzten drei Verfahren wurden verschiedene Kernels verwendet, ein linearer Kernel (lin), ein Cosinus-Kernel (cos), ein gaußscher RBF-Kernel (RBF), ein polynomialer Kernel vom zweiten Grad (poly) und ein exponentieller linearer Kernel (expl). Der letztere ist definiert als k(xi, xj) = expAx T / ixj, wobei A > 0 ein Einstellparameter ist. In den Experimenten waren die Ergebnisse nicht sehr sensitiv in Bezug auf A und des wurde A = 0,2 gewählt.
  • Der erste Testdatensatz stammt aus dem Filmempfehlungssystem "MovieLens". Hierbei handelt es sich um einen Datensatz, in dem Bewertungen von einer Vielzahl von Benutzern für unterschiedliche Filme abgegeben wurden. Aus dem Datensatz wurden RDF-Tripel in der Form (Benutzer, mag, Film) erzeugt. Hierbei wurden die Bewertungen der einzelnen Benutzer entsprechend kategorisiert und hieraus abgeleitet, ob ein Benutzer einen Film mag oder nicht. Ferner enthält der Datensatz Tripel mit Typed-Literalen, welche Attribute von Benutzern und Filmen beschreiben, wie z. B. Alter, Geschlecht und Beruf für die Be nutzer sowie Erscheinungsjahr, Genre und dergleichen für die Filme. Alle Attribute wurden durch boolsche Variablen repräsentiert. Es wurde ein Teildatensatz mit 156 Benutzern, 603 Filmen und 17336 Bewertungen ausgewählt, so dass jeder Film wenigstens 30 Bewertungen hat und jeder Benutzer mehr als sechs Filme bewertet hat. Ferner wurden zehn unterschiedliche Testdatensätze verwendet, wobei in jedem Testdatensatz eine unbekannte Filmbewertung für jeden Benutzer enthalten ist. Das Prädiktionsmodell wurde mit dem Teildatensatz gelernt und mit dem Testdatensatz getestet, wobei anschließend die Genauigkeit des Verfahrens durch Vergleich der für den Testdatensatz vorgenommenen Prädiktionen mit den tatsächlichen Werten des Testdatensatzes bestimmt wurde.
  • Für jeden Nutzer wurden die folgenden Merkmale abgeleitet: (jung), (mittleres Alter), ..., (weiblich), ... für die Benutzer-Attribute und (Mag Film mit der Nr. i) für alle Filme. Es wurden somit Kategorisierungen von Attributen vorgenommen, beispielsweise wurde das Alter in bestimmte Altersgruppen eingeteilt. Schließlich wurden die Attribute der Filme, welche ein Benutzer mag, durch die boolsche Eigenschaft (mag, Filmattribut) aggregiert. Beispielsweise aggregiert das Merkmal, welches von der boolschen Eigenschaft (mag, Actionfilm) abgeleitet ist, wie viele Actionfilme der Nutzer mag. Ebenso werden Merkmale der Filme aus den Filmattributen, aus der Identität der Benutzer, welche die Filme mochten, und aus ihren aggregierten Attributen (beispielsweise wie viele ältere Personen einen Film mochten usw.) erzeugt.
  • Es wurden Experimente für einseitige und zweiseitige Relations-Prädiktionen durchgeführt. Bei der einseitigen, nur Eigenschaften der Benutzer berücksichtigenden Prädiktion wurde ein separates Modell für jeden Film trainiert und bei der einseitigen, nur Merkmale der Filme berücksichtigenden Prädiktion wurde ein separates Modell für jeden Benutzer trainiert. In der zweiseitigen, sowohl Eigenschaften der Benutzer als auch der Filme berücksichtigenden Prädiktion wurde nur ein globales Modell trainiert. Für die Kernels wurde der Produkt-Kernel gemäß obiger Gleichung (1) verwendet.
  • 2 zeigt in tabellarischer Form die Genauigkeit der Prädiktionen für die Testdatensätze für die unterschiedlichen Lernverfahren. In den Zeilen sind hierbei die unterschiedlichen Lernverfahren angegeben, die im Vorangegangenen bereits genannt wurden. Die Spalte in 2 teilt sich in drei Bereiche, nämlich in den Bereich US, MS und TS. US betrifft die einseitige, nur Merkmale der Benutzer berücksichtigende Prädiktion. MS betrifft die einseitige, nur Merkmale der Filme berücksichtigende Prädiktion. TS betrifft die zweiseitige Prädiktion. Der Bereich US enthält nochmals die Spalten U, Ru, Ru + U sowie Ru + U + M. In der Spalte U wurde ein Modell verwendet, bei dem als Merkmale die Attribute der Benutzer berücksichtigt wurden. In der Spalte Ru wurde ein Modell verwendet, bei dem als Merkmale die Film-Bewertungen eines Benutzers berücksichtigt wurden. In der Spalte Ru + U wurden die Merkmale sowohl der Spalte U als auch der Spalte Ru berücksichtigt. In der Spalte Ru + U + M wurde neben den Merkmalen der Spalte Ru + U ferner für jeden Benutzer die Merkmale derjenigen Filme berücksichtigt, die von dem Benutzer bewertet wurden. In der Spalte M wurden als Merkmale nur die Attribute der Filme berücksichtigt. In der Spalte Rm wurden als Merkmale eines Films die Bewertungen der Benutzer für den Film berücksichtigt. In der Spalte Rm + M wurden die Merkmale sowohl der Spalte M als auch der Spalte Rm berücksichtigt. In der Spalte Rm + M + U wurden neben den Merkmalen gemäß der Spalte Rm + M ferner für jeden Film die Merkmale derjenigen Benutzer berücksichtigt, die den Film bewertet haben. In der Spalte M + U wurden beim Trainieren sowohl die Attribute der Filme als auch der Benutzer als Merkmale berücksichtigt. In der Spalte Ru,m wurden als Merkmale die Film-Bewertungen eines jeweiligen Benutzers sowie die Bewertungen der Benutzer zu einem jeweiligen Film berücksichtigt. In der Spalte Ru,m + M + U wurden als Merkmale sowohl die Merkmale aus der Spalte M + U sowie aus der Spalte Ru,m berücksichtigt.
  • Als Werte sind in den einzelnen Einträgen der Spalte die Genauigkeit in Prozent mit entsprechender Abweichung angegeben, sofern ein Wert ermittelt wurde. Wenn kein Wert ermittelt wurde, ist dies durch N/A gekennzeichnet. Die Genauigkeit gibt wieder, wie viele Bewertungen durch das Prädiktionsmodell im Testdatensatz im Hinblick darauf, ob ein Benutzer einen Film mag, richtig vorgenommen wurden. Man erkennt aus den Werten der Tabelle, dass die Prädiktion gemäß dem Bereich MS, welche Merkmale der Filme berücksichtigt, besser als die Prädiktion gemäß dem Bereich US ist, welche Eigenschaften der Benutzer berücksichtigt. Bei der Prädiktion US sind vorangegangene Bewertungen informativer als Benutzerattribute, was sich daraus ergibt, dass in der Spalte Ru bessere Genauigkeiten erzielt werden als in der Spalte U. Die Performanz kann nicht verbessert werden, indem Benutzerattribute oder aggregierte Filmattribute hinzugefügt werden. Die Ausnahme ist SVM, bei der Verbesserungen für zwei Kernels festgestellt werden. Bei der Prädiktion MS, welche Eigenschaften der Filme berücksichtigt, ist eine frühere Bewertungsinformation informativer als die Filmattribute, was sich daraus ergibt, dass in der Spalte Rm bessere Genauigkeiten als in der Spalte M erzielt werden. Das Hinzufügen von Filmattributen zu der Bewertungsinformation führt in den meisten Fällen zu keiner Verbesserung. Es ist ferner überraschend, dass das Hinzufügen von aggregierter Benutzerinformation die Performanz deutlich verbessert. Für die zweiseitigen Tests gemäß dem Bereich TS war die Bewertungsinformation wiederum stärker relevant als die Filmattribute und Benutzerattribute. Falls Systeme nur mit Relations-Informationen gemäß der Spalte Ru,m betracht werden, arbeitet das Kernel Smoothing-Verfahren mit dem exponentiellen linearen Kernel am Besten. Das Hinzufügen von Attribut-Information verbessert die Performanz in der zweiseitigen Prädiktion nicht. Vergleicht man die unterschiedlichen Verfahren, lieferte insgesamt die logistische Regression die besten Ergebnisse, gefolgt von dem Kernel Smoothing-Verfahren, SVM und Naive Bayes.
  • Als zweiter Datensatz wurden Gendaten basierend auf dem Gendatensatz von KDD Cup 2001 verwendet. Ein Gen wird durch eine Anzahl von Attributen umfassend Chromosom, Essentiell, Phänotyp, Motiv, Klasse und Funktion beschrieben. Zusätzlich können Gene interagieren, was zu Tripeln führt, bei denen Subjekt und Objekt Gene sind. Das Ziel bei diesem Experiment ist die Prädiktion der Funktion von Genomen. Insgesamt sind 1243 Gene in dem Datensatz enthalten, welche in einen Trainingssatz (862) und einen Testsatz (381) aufgeteilt wurden. In diesem Datensatz ist nur eine kleine Anzahl von interessierenden Gen-Interaktions-Relationen bekannt. In einem Experiment wurden Gen-Funktionen als unabhängige Attribute behandelt, welche prädiziert werden sollen. Die beste Performanz konnte dabei durch die Verwendung von SVM sowie dem RBF-Kernel basierend auf den Gen-Attributen, den Gen-Interaktionen und aggregierten Interaktionen erreicht werden. Die Genauigkeit lag bei 80,5%. Viel bessere Ergebnisse wurden dadurch erreicht, dass die Gen-Funktionen als Ressourcen behandelt wurden und eine zweiseitige Prädiktion verwendet wurde. Mit Produkt-Kernels basierend auf exponentiellen linearen Kernels wurde eine Genauigkeit von 93,2% erreicht. Die große Verbesserung kann durch den gemeinschaftlichen Effekt zwischen Genen und Funktionen erklärt werden, was bedeutet, dass unbekannte Funktionen aus anderen bekannten Funktionen vorhergesagt werden, d. h. die Funktionen sind teilweise korreliert.

Claims (20)

  1. Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen, wobei die digitalen Informationen Entitäten umfassend zumindest semantische Ressourcen (R1, ..., R13) beinhalten und semantische Relationen zwischen den Entitäten als Tripel repräsentiert werden, wobei ein Tripel eine erste Entität als Subjekt, eine Eigenschaft (P1, ..., P11) als Prädikat und eine zweite Entität als Objekt umfasst, wodurch ein Graph aus Knoten und gerichteten Kanten gebildet wird, in dem jedes Tripel repräsentiert ist als ein Pfadabschnitt umfassend die erste Entität und die zweite Entität als Knoten sowie die Eigenschaft als eine von der ersten auf die zweite Entität gerichtete Kante, bei dem: – aus dem Graphen eine Vielzahl von Pfaden extrahiert wird, wobei ein Pfad einen oder mehrere in dem Graphen zusammenhängende Knoten und gerichtete Kanten umfasst, wobei ein erster Pfadtyp als Anfangspunkt eine Ressource (R1, ..., R13) und als Endpunkt eine Eigenschaft (P1, ..., P11) aufweist und ein zweiter Pfadtyp als Anfangspunkt eine Ressource (R1, ..., R13) und als Endpunkt eine Ressource (R1, ..., R13) aufweist; – jedem extrahierten Pfad ein boolsches Merkmal in der Form eines Tupels zugeordnet wird, wobei ein jeweiliges Tupel als ersten Eintrag die Ressource (R1, ..., R13) am Anfangspunkt des extrahierten Pfads und als zweiten Eintrag für den ersten Pfadtyp aufeinander folgenden Eigenschaften (P1, ..., P11) gemäß den gerichteten Kanten im extrahierten Pfad und für den zweiten Pfadtyp aufeinander folgende Eigenschaften (P1, ..., P11) gemäß den gerichteten Kanten im extrahierten Pfad sowie die Ressource (R1, ..., R13) am Endpunkt des Pfads umfasst; – auf die boolschen Merkmale ein oder mehrere maschinelle Lernverfahren angewendet werden, wodurch ein Prädiktionsmodell erzeugt wird, auf dessen Basis Relationen zwischen Entitäten prädiziert werden können.
  2. Verfahren nach Anspruch 1, bei dem eine maximale Pfadlänge der extrahierten Pfade vorgegeben ist und nur solche Pfade extrahiert werden, deren Pfadlänge kleiner oder gleich der maximalen Pfadlänge ist, wobei die Pfadlänge durch die Anzahl an Kanten in einem Pfad definiert ist.
  3. Verfahren nach Anspruch 1 oder 2, bei dem für jedes boolsches Merkmal ein Wert extrahiert wird, der angibt, wie viele Male das boolsche Merkmal in dem Graphen auftritt.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in dem Graphen für einen jeweiligen Pfadabschnitt, der eine in einer Ressource (R1, ..., R13) endende Kante aufweist, für welche keine Kante in die Gegenrichtung existiert, ein Pfadabschnitt in der Gegenrichtung erzeugt wird, umfassend als erste Entität die zweite Entität des jeweiligen Pfadabschnitts, als Kante eine Eigenschaft, welche zu der Eigenschaft gemäß der Kante des jeweiligen Pfadabschnitts invers ist, sowie als zweite Entität die erste Entität des jeweiligen Pfadabschnitts.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die extrahierten Pfade keine Pfade enthalten, in denen ein Pfadabschnitt zweimal und/oder in entgegengesetzter Richtung durchlaufen wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem im Falle, dass bei der Extraktion der Pfade ein Pfad auftritt, der eine Ressource (R1, ..., R13) zweimal enthält, als extrahierter Pfad ein Pfad erzeugt wird, der an der Position des Pfads, an welcher die Ressource zum zweiten Mal auftritt, als Eigenschaft einen Verweis auf die Position des Pfads enthält, an der die Ressource das erste Mal auftritt.
  7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Entitäten neben semantischen Ressourcen (R1, ..., R13) ferner Literale (L1, L2, L3) umfassen, wobei ein extrahierter Pfad vom zweiten Pfadtyp als Anfangspunkt immer eine Ressour ce (R1, ..., R13) aufweist und als Endpunkt eine Ressource (R1, ..., R13) oder ein Literal (L1, L2, L3) aufweist und der zweite Eintrag des Tupels des entsprechenden boolschen Merkmals für den zweiten Pfadtyp aufeinander folgende Eigenschaften (P1, ..., P11) gemäß den gerichteten Kanten im extrahierten Pfad sowie die Ressource (R1, ..., R13) oder das Literal (L1, L2, L3) am Endpunkt des Pfads umfasst.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem boolsche Merkmale, deren Tupel einen zweiten Eintrag enthalten, der mit einem nicht-boolsches Literal endet, kategorisiert werden.
  9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine erste Gruppe von Ressourcen (R1, ..., R13) und eine zweite Gruppe von Ressourcen (R1, ..., R13) vorgegeben ist, wobei zwischen der ersten und zweiten Gruppe Relationen zu prädizieren sind, und diejenigen boolschen Merkmale, welche jeweils ein Tupel darstellen, dessen erster Eintrag einer ersten Ressource aus der ersten Gruppe entspricht, und dessen zweiter Eintrag einem zweiten Pfadtyp entspricht, dessen Endpunkt eine zweite Ressource aus der zweiten Gruppe ist, in ein boolsches Relations-Merkmal zwischen der ersten Ressource und der zweiten Ressource umgewandelt wird, wobei in einem boolschen Relations-Merkmal das entsprechende boolsche Merkmal derart modifiziert wird, dass die zweite Ressource im zweiten Eintrag durch die Eigenschaft ersetzt wird, dass die aufeinander folgenden Eigenschaften gemäß dem zweiten Eintrag zu einer Ressource aus der zweiten Gruppe führen.
  10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem auf die boolschen Merkmale ein oder mehrere überwachte Lernverfahren angewendet werden.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem auf die boolschen Merkmale ein oder mehrere lernende Klassifizierungsverfahren angewendet werden.
  12. Verfahren nach Anspruch 11, bei dem das oder die Klassifizierungsverfahren ein oder mehrere der folgenden Verfahren umfassen: – eine Naive Bayes Klassifizierer; – Logistische Regression; – Support Vector Machines; – Gaussian Process Classification; – Kernel Smoothing.
  13. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die digitalen semantisch annotierten Informationen basierend auf RDF (RDF = Ressource Description Framework) beschrieben werden.
  14. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die digitalen semantisch annotierten Informationen ein technisches System betreffen und mit dem erzeugten Prädiktionsmodell das Verhalten des technischen Systems bei vorgegebenen Parametern des technischen Systems prädizierbar ist.
  15. Verfahren nach einem der Ansprüche 1 bis 13, bei dem die digitalen semantisch annotierten Informationen Eigenschaften von Benutzern und Bewertungen von Benutzern zu Produkten und/oder Diensten und/oder anderen Benutzern umfassen und mit dem erzeugten Prädiktionsmodell Bewertungen von den jeweiligen Benutzern in Abhängigkeit von den Eigenschaften der jeweiligen Benutzer und/oder der Dienste und/oder der anderen Benutzer prädizierbar sind, wobei insbesondere Empfehlungen für einen jeweiligen Benutzer ausgebbar sind.
  16. Verfahren nach einem der Ansprüche 1 bis 13, bei dem die digitalen semantisch annotierten Informationen biologische und/der biomedizinische und/oder medizinische Entitäten umfassen, wobei mit dem oder den maschinellen Lernverfahren Relationen zwischen diesen Entitäten gelernt werden.
  17. Verfahren nach Anspruch 16, bei dem die digitalen semantisch annotierten Informationen Gendaten enthalten und mit dem gelernten Prädiktionsmodell Funktionen von Genen prädizierbar sind.
  18. Verfahren nach Anspruch 16 oder 17, bei dem mit dem gelernten Prädiktionsmodell Wirkungen von Medikamenten prädizierbar sind.
  19. Vorrichtung zur rechnergestützten Prädiktion von Relationen zwischen Entitäten in digitalen semantisch annotierten Informationen, umfassend ein Prädiktionsmittel, welches auf einem Prädiktionsmodell beruht, welches mit einem Verfahren nach einem der vorhergehenden Ansprüche erzeugt wurde.
  20. Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 18, wenn das Programm auf einem Rechner abläuft.
DE102007000954A 2007-09-27 2007-09-27 Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen Ceased DE102007000954A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102007000954A DE102007000954A1 (de) 2007-09-27 2007-09-27 Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007000954A DE102007000954A1 (de) 2007-09-27 2007-09-27 Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen

Publications (1)

Publication Number Publication Date
DE102007000954A1 true DE102007000954A1 (de) 2009-04-09

Family

ID=40417774

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007000954A Ceased DE102007000954A1 (de) 2007-09-27 2007-09-27 Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen

Country Status (1)

Country Link
DE (1) DE102007000954A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013003055A1 (de) 2013-02-18 2014-08-21 Nadine Sina Kurz Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
CN111178531A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 关系推理以及关系推理模型的获取方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Bagga, A. Heinz: "Software Systems for Implemen ting Graph Algorithms for Learning and Research", ICTACS 2006, The First International Conference on Theories and Applications of Computer Science 200 6, Ch. 1, S. 1-14 & Bibliographie
J. Bagga, A. Heinz: "Software Systems for Implemen ting Graph Algorithms for Learning and Research", ICTACS 2006, The First International Conference on Theories and Applications of Computer Science 2006, Ch. 1, S. 1-14 & Bibliographie *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013003055A1 (de) 2013-02-18 2014-08-21 Nadine Sina Kurz Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
CN111178531A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 关系推理以及关系推理模型的获取方法、装置及存储介质
CN111178531B (zh) * 2018-11-09 2023-09-22 百度在线网络技术(北京)有限公司 关系推理以及关系推理模型的获取方法、装置及存储介质

Similar Documents

Publication Publication Date Title
DE202020006040U1 (de) Systeme zum Organisieren und Finden von Daten
DE112018005894T5 (de) Maschinenlernen zum integrieren von wissens- und natürlicher sprachverarbeitung
DE102020113545A1 (de) Verfahren, vorrichtungen, systeme und erzeugnisse zum bereitstellen von abfrageauswahlsystemen
EP0855062B1 (de) Informationssystem und verfahren zur speicherung von daten in einem informationssystem
DE102016223193A1 (de) Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen
DE202017007517U1 (de) Aggregatmerkmale für maschinelles Lernen
DE112015002286T5 (de) Visuelle interaktive suche
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
DE112016002395T5 (de) Zugriffskontrolle für Datenressourcen
DE112015002433T5 (de) Systeme und Techniken zur prädikativen Datenanalytik
DE102016011905A1 (de) Bestimmen der Qualität einer Zusammenfassung eines Multimediainhalts
Waldherr et al. Big data, big noise: The challenge of finding issue networks on the web
DE112020001874T5 (de) Datenextraktionssystem
DE112006003518T5 (de) System für die Validierung von mindestens einem Teil eines Dokuments
DE112012004331T5 (de) Verwenden der Stärke von Rückverfolgbarkeitsverknüpfungen zum Überwachen der Software-Entwicklungsintegrität
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
Lei Upgrading China through automation: Manufacturers, workers and the techno-developmental state
Tullis et al. Remindings influence the interpretation of ambiguous stimuli
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE112021001743T5 (de) Vektoreinbettungsmodelle für relationale tabellen mit null- oder äquivalenten werten
DE102007000954A1 (de) Verfahren zur rechnergestützten Verarbeitung von digitalen semantisch annotierten Informationen
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
EP2601594A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE102014116117A1 (de) Verfahren und System zum Mining von Mustern in einem Datensatz

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection