-
Hintergrund
-
Die Erfindung betrifft eine Vorrichtung und ein Verfahren zur automatischen Analyse von Daten.
-
Ein Wissensgraph (Knowledge Graph), KG, kann verwendet werden, um Daten automatisch zu analysieren. Ein Ergebnis einer Analyse von Daten kann automatisch aus Schlüsselwörtern in den Daten bestimmt werden, indem ein Teilgraph des KG gefunden wird, welcher eine Kostenfunktion optimiert.
-
Beschreibung der Erfindung
-
Die Vorrichtung, das Verfahren und das Computerprogramm gemäß den unabhängigen Ansprüchen verbessern die automatische Analyse weiter.
-
Die Beschreibung offenbart eine Vorrichtung zur automatischen Analyse von Daten, welche Schlüsselwörter umfassen, wobei die Vorrichtung einen Eingang umfasst, wobei der Eingang dafür ausgelegt ist, Schlüsselwörter der Daten auf numerische Darstellungen wenigstens eines ersten Knotens eines Wissensgraphen und eines zweiten Knotens des Wissensgraphen und eines dritten Knotens des Wissensgraphen abzubilden, wobei in dem Wissensgraphen Gewichte seinen Knoten zugewiesen sind, wobei in dem Wissensgraphen semantische Abstände Paaren seiner Knoten zugewiesen sind, wobei die Vorrichtung ferner einen Prozessor umfasst, wobei der Prozessor dafür ausgelegt ist, in Abhängigkeit von der numerischen Darstellung des ersten Knotens eine numerische Darstellung eines ersten Weges in dem Wissensgraphen zu bestimmen, der an dem ersten Knoten beginnt und an dem dritten Knoten des Wissensgraphen endet, wobei der Prozessor dafür ausgelegt ist, in Abhängigkeit von der numerischen Darstellung des zweiten Knotens und einer numerischen Darstellung des dritten Knotens eine numerische Darstellung eines zweiten Weges in dem Wissensgraphen zu bestimmen, der an dem zweiten Knoten beginnt und an dem dritten Knoten endet, wobei der Prozessor ferner dafür ausgelegt ist, in Abhängigkeit von der numerischen Darstellung des ersten Weges und in Abhängigkeit von der numerischen Darstellung des zweiten Weges eine numerische Darstellung eines Teilgraphen des Wissensgraphen zu bestimmen, der den ersten Weg und den zweiten Weg umfasst, wobei der Prozessor ferner dafür ausgelegt ist, Kosten in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Teilgraphen zuwiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Teilgraphen zu bestimmen, und wobei der Prozessor dafür ausgelegt ist, in Abhängigkeit von den Kosten zu bestimmen, ob die numerische Darstellung des Teilgraphen oder eine numerische Darstellung eines Referenz-Teilgraphen auszugeben ist, und wobei die Vorrichtung einen Ausgang umfasst, der dafür ausgelegt ist, die ausgegebene numerische Darstellung auf ein Ergebnis der Analyse abzubilden. Die Kostenfunktion ist vorzugsweise quadratisch, und sie minimiert nicht nur Knotengewichte, sondern auch semantische Abstände zwischen Paaren von Knoten, welche unabhängig von der Graphstruktur und vom Knotengewicht sein können. Der Teilgraph mit wenigstens einem Schlüsselwortknoten ist eine kohäsive Antwort, die das Ergebnis der automatischen Analyse der Schlüsselwörter umfasst.
-
Der wenigstens eine Prozessor kann ferner dafür ausgelegt sein, eine numerische Darstellung eines ersten Kandidatenweges in dem Wissensgraphen zu bestimmen, welcher am ersten Knoten beginnt und an einem letzten Knoten endet, wobei der wenigstens eine Prozessor ferner dafür ausgelegt ist, eine numerische Darstellung eines zusätzlichen Knotens des Wissensgraphen auszuwählen, welcher durch eine einzige Kante mit dem letzten Knoten verbunden und noch nicht Teil des ersten Kandidatenweges ist, wobei der wenigstens eine Prozessor ferner dafür ausgelegt ist, die numerische Darstellung eines zweiten Kandidatenweges in Abhängigkeit von der numerischen Darstellung des ersten Kandidatenweges und in Abhängigkeit von einer numerischen Darstellung der einzigen Kante und in Abhängigkeit von der numerischen Darstellung des zusätzlichen Knotens zu bestimmen. Auf diese Weise wird der Kandidatenweg gleichzeitig um eine Kante und einen zusätzlichen Knoten verlängert.
-
Der wenigstens eine Prozessor kann ferner dafür ausgelegt sein, in Abhängigkeit von der numerischen Darstellung des ersten Kandidatenweges eine Länge des ersten Kandidatenweges zu bestimmen und den zweiten Kandidatenweg nur zu bestimmen, falls die Länge kleiner als ein Schwellenwert ist. Dies garantiert eine maximale Suchtiefe und verringert die Rechenzeit.
-
Der wenigstens eine Prozessor kann ferner dafür ausgelegt sein, eine Kostenschranke für einen Kandidatenweg in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Kandidatenweges zugewiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Kandidatenweges zu bestimmen, und wobei der Prozessor dafür ausgelegt ist, den ersten Weg und den zweiten Weg unabhängig von dem Kandidatenweg zu bestimmen, falls die Kostenschranke eine zweite Bedingung erfüllt. Die Kostenschranke gibt Kosten für den Teilgraphen an, welche aus der Betrachtung des Kandidatenweges resultieren werden. Dies verringert die Rechenzeit, da der Kandidatenweg bei der Berechnung nicht weiter betrachtet wird, falls er nicht zu einer kohäsiveren Antwort führt.
-
Der wenigstens eine Prozessor kann ferner dafür ausgelegt sein, in Abhängigkeit von Referenzkosten zu bestimmen, dass die erste Bedingung erfüllt ist, wenn die Kosten für den Teilgraphen kleiner als die Referenzkosten sind, und/oder dass die zweite Bedingung erfüllt ist, wenn die Kostenschranke größer oder gleich den Referenzkosten ist. Gemäß einem Aspekt ist die Antwort, welche der Teilgraph darstellt, umso kohäsiver, je niedriger die Kosten des Teilgraphen sind. Auf diese Weise wird der Teilgraph nur betrachtet, wenn er eine kohäsivere Antwort darstellt. Gemäß einem anderen Aspekt wird, falls die Kosten des Kandidatenweges bereits höher als die Referenzkosten sind, dieser nicht betrachtet. Auf diese Weise wird der Kandidatenweg nur betrachtet, falls er zu einer kohäsiveren Antwort führen wird.
-
Der wenigstens eine Prozessor kann dafür ausgelegt sein, die Referenzkosten in Abhängigkeit von einer numerischen Darstellung eines Referenz-Teilgraphen in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Referenz-Teilgraphen zugewiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Referenz-Teilgraphen zu bestimmen. Der Referenz-Teilgraph kann leer, d. h. null, in einer ersten Iteration oder ein in einer vorhergehenden Iteration bestimmter optimaler Teilgraph sein. Dies stellt eine Konvergenz gegen die kohäsivste Antwort sicher.
-
Der wenigstens eine Prozessor kann dafür ausgelegt sein, numerische Darstellungen von Kandidatenwegen in einer Menge von Kandidatenwegen nach ihrer jeweiligen Kostenschranke zu ordnen, wobei der Prozessor dafür ausgelegt ist, aus der Menge die numerische Darstellung des Kandidatenweges auszuwählen, welche eine vorbestimmte Position in der Reihenfolge hat. Der Kandidatenweg mit den niedrigsten Kosten wird vorzugsweise ausgewählt, indem die numerische Darstellung dementsprechend geordnet und ausgewählt wird.
-
Das Verfahren zur automatischen Analyse von Daten umfasst das Abbilden, durch einen Eingang, eines ersten Schlüsselwortes der Daten auf eine numerische Darstellung eines ersten Knotens eines Wissensgraphen, das Abbilden, durch den Eingang, eines zweiten Schlüsselwortes der Daten auf eine numerische Darstellung eines zweiten Knotens des Wissensgraphen, das Abbilden, durch den Eingang, eines dritten Schlüsselwortes der Daten auf eine numerische Darstellung eines dritten Knotens des Wissensgraphen, wobei in dem Wissensgraphen Gewichte seinen Knoten zugewiesen sind, wobei in dem Wissensgraphen semantische Abstände Paaren seiner Knoten zugewiesen sind, das Bestimmen, durch wenigstens einen Prozessor, in Abhängigkeit von der numerischen Darstellung des ersten Knotens, einer numerischen Darstellung eines ersten Weges in dem Wissensgraphen, der an dem ersten Knoten beginnt und an dem dritten Knoten des Wissensgraphen endet, das Bestimmen, durch den wenigstens einen Prozessor, in Abhängigkeit von der numerischen Darstellung des zweiten Knotens und einer numerischen Darstellung des dritten Knotens, einer numerischen Darstellung eines zweiten Weges in dem Wissensgraphen, der an dem zweiten Knoten beginnt und an dem dritten Knoten endet, das Bestimmen, durch den wenigstens einen Prozessor, in Abhängigkeit von der numerischen Darstellung des ersten Weges und in Abhängigkeit von der numerischen Darstellung des zweiten Weges, einer numerischen Darstellung eines Teilgraphen des Wissensgraphen, der den ersten Weg und den zweiten Weg umfasst, das Bestimmen, durch den wenigstens einen Prozessor, von Kosten in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Teilgraphen zugewiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Teilgraphen, das Bestimmen, durch den wenigstens einen Prozessor, in Abhängigkeit von den Kosten, ob die numerische Darstellung des Teilgraphen oder eine numerische Darstellung eines Referenz-Teilgraphen auszugeben ist, und das Abbilden, durch einen Ausgang, der ausgegebenen numerischen Darstellung auf ein Ergebnis der Analyse. Das wenigstens eine Schlüsselwort ist eine kohäsive Antwort, die das Ergebnis der automatischen Analyse der Schlüsselwörter umfasst.
-
Das Verfahren kann ferner das Bestimmen, durch den wenigstens einen Prozessor, einer numerischen Darstellung eines ersten Kandidatenweges in dem Wissensgraphen umfassen, welcher am ersten Knoten beginnt und an einem letzten Knoten endet, das Auswählen, durch den wenigstens einen Prozessor, einer numerischen Darstellung eines zusätzlichen Knotens des Wissensgraphen, welcher durch eine einzige Kante mit dem letzten Knoten verbunden und noch nicht Teil des ersten Kandidatenweges ist, das Bestimmen, durch den wenigstens einen Prozessor, der numerischen Darstellung eines zweiten Kandidatenweges in Abhängigkeit von der numerischen Darstellung des ersten Kandidatenweges und in Abhängigkeit von einer numerischen Darstellung der einzigen Kante und in Abhängigkeit von der numerischen Darstellung des zusätzlichen Knotens. Auf diese Weise wird der Kandidatenweg gleichzeitig um eine Kante und einen zusätzlichen Knoten verlängert.
-
Das Verfahren kann ferner das Bestimmen, durch den wenigstens einen Prozessor, in Abhängigkeit von der numerischen Darstellung des ersten Kandidatenweges, einer Länge des ersten Kandidatenweges und das Bestimmen des zweiten Kandidatenweges nur dann, falls die Länge kleiner als ein Schwellenwert ist, umfassen. Dies garantiert eine maximale Suchtiefe und verringert die Rechenzeit.
-
Das Verfahren kann ferner das Bestimmen, durch den wenigstens einen Prozessor, einer Kostenschranke für einen Kandidatenweg in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Kandidatenweges zugewiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Kandidatenweges, und das Bestimmen, durch den wenigstens einen Prozessor, des ersten Weges und des zweiten Weges unabhängig von dem Kandidatenweg, falls die Kostenschranke eine zweite Bedingung erfüllt, umfassen. Die Kostenschranke gibt Kosten für den Teilgraphen an, welche aus der Betrachtung des Kandidatenweges resultieren werden. Dies verringert die Rechenzeit, da der Kandidatenweg bei der Berechnung nicht weiter betrachtet wird, falls er nicht zu einer kohäsiveren Antwort führt.
-
Das Verfahren kann ferner das Bestimmen, durch den wenigstens einen Prozessor, in Abhängigkeit von Referenzkosten, dass die erste Bedingung erfüllt ist, wenn die Kosten für den Teilgraphen kleiner als die Referenzkosten sind, und/oder dass die zweite Bedingung erfüllt ist, wenn die Kostenschranke größer oder gleich den Referenzkosten ist, umfassen. Gemäß einem Aspekt ist die Antwort, welche der Teilgraph darstellt, umso kohäsiver, je niedriger die Kosten des Teilgraphen sind. Auf diese Weise wird der Teilgraph nur betrachtet, wenn er eine kohäsivere Antwort darstellt. Gemäß einem anderen Aspekt wird, falls die Kosten des Kandidatenweges bereits höher als die Referenzkosten sind, dieser nicht betrachtet. Auf diese Weise wird der Kandidatenweg nur betrachtet, falls er zu einer kohäsiveren Antwort führen wird.
-
Das Verfahren kann ferner das Bestimmen, durch den wenigstens einen Prozessor, der Referenzkosten in Abhängigkeit von einer numerischen Darstellung eines Referenz-Teilgraphen in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Referenz-Teilgraphen zugewiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Referenz-Teilgraphen umfassen. Der Referenz-Teilgraph kann leer, d. h. null, in einer ersten Iteration oder ein in einer vorhergehenden Iteration bestimmter optimaler Teilgraph sein. Dies stellt eine Konvergenz gegen die kohäsivste Antwort sicher.
-
Das Verfahren kann ferner das Ordnen, durch den wenigstens einen Prozessor, numerischer Darstellungen von Kandidatenwegen in einer Menge von Kandidatenwegen nach ihrer jeweiligen Kostenschranke und das Auswählen, durch den wenigstens einen Prozessor, der numerischen Darstellung des Kandidatenweges aus der Menge, welche eine vorbestimmte Position in der Reihenfolge hat, umfassen. Der Kandidatenweg mit den niedrigsten Kosten wird vorzugsweise ausgewählt, indem die numerische Darstellung dementsprechend geordnet und ausgewählt wird.
-
Das Computerprogramm zur automatischen Analyse von Schlüsselwörtern umfasst computerlesbare Anweisungen, welche, wenn sie von einem Computer ausgeführt werden, bewirken, dass der Computer das Verfahren ausführt.
-
Weitere Ausführungsformen können aus der folgenden Beschreibung und der Zeichnung abgeleitet werden. In der Zeichnung zeigt
- 1 einen beispielhaften Wissensgraphen,
- 2 Aspekte einer Vorrichtung zur Analyse von Daten,
- 3 Aspekte eines Verfahrens zur Analyse von Daten.
-
1 zeigt einen beispielhaften Wissensgraphen, KG, 100.
-
Der KG 100 umfasst einen Knoten 102, einen Knoten 104, einen Knoten 106, einen Knoten 108, einen Knoten 110, einen Knoten 112, einen Knoten 114, einen Knoten 116, einen Knoten 118, einen Knoten 120, einen Knoten 122 und einen Knoten 124.
-
Eine Kante 126 des KG 100 beginnt am Knoten 102 und endet am Knoten 104. Eine andere Kante 128 des KG 100 beginnt am Knoten 108 und endet am Knoten 106. Eine andere Kante 130 des KG 100 beginnt am Knoten 108 und endet am Knoten 110. Eine andere Kante 132 des KG 100 beginnt am Knoten 114 und endet am Knoten 112. Eine andere Kante 134 des KG 100 beginnt am Knoten 116 und endet am Knoten 114. Eine andere Kante 136 des KG 100 beginnt am Knoten 118 und endet am Knoten 116. Eine andere Kante 138 des KG 100 beginnt am Knoten 118 und endet am Knoten 120. Eine andere Kante 140 des KG 100 beginnt am Knoten 112 und endet am Knoten 102. Eine andere Kante 142 des KG 100 beginnt am Knoten 104 und endet am Knoten 122. Eine andere Kante 144 des KG 100 beginnt am Knoten 106 und endet am Knoten 122. Eine andere Kante 146 des KG 100 beginnt am Knoten 108 und endet am Knoten 124. Eine andere Kante 148 des KG 100 beginnt am Knoten 118 und endet am Knoten 124.
-
Der KG 100 kann mehr oder weniger Knoten und/oder mehr oder weniger Kanten umfassen. In dem Beispiel stellt der KG 100 Wissen aus dem technischen Gebiet der Werkstoffkunde dar. Zur Analyse von Daten aus anderen technischen Gebieten können entsprechende KGs verwendet werden.
-
In dem Beispiel wird die Information auf die Knoten und die Kanten gemäß der folgenden Abbildung von Bezugszahlen von Knoten auf Schlüsselwörter und der folgenden Abbildung von Bezugszeichen von Kanten auf Schlüsselwörter abgebildet.
- 102
- Zirconium dioxide (Zirconimdioxid)
- 104
- Heavy metal oxide (Schwermetalloxid)
- 106
- La2NiO4
- 108
- Experiment 2
- 110
- 400w/cm^2
- 112
- Zirconium oxide (Zirconiumoxid)
- 114
- Stabilized zirconia (Stabilisiertes Zirconium)
- 116
- YSZ
- 118
- Experiment 1
- 120
- 700°C
- 126
- subClass (UnterKlasse)
- 128
- hasMaterial (hatMaterial)
- 130
- hasPowerDensity (hatLeistungsdichte)
- 132
- subClass (UnterKlasse)
- 134
- Type (Typ)
- 136
- has Electrolyte (hat Elektrolyt)
- 138
- atTemperature (beiTemperatur)
- 140
- subClass (UnterKlasse)
- 142
- subClass (UnterKlasse)
- 144
- Type (Typ)
-
Der KG 100 wird in dem Beispiel verwendet, um automatisch ein Ergebnis einer Analyse von Daten zu bestimmen, welche Schlüsselwörter enthalten. Die Erfindung ist nicht auf Schlüsselwörter beschränkt, welche für einen Menschen lesbar oder verständlich sind. Der Begriff „Schlüsselwort“ bezieht sich in diesem Zusammenhang allgemeiner auf ein beliebiges Symbol oder Muster in den Daten, welches mit einem entsprechenden KG analysiert werden kann. Ein Teilgraph 150, der ein beispielhaftes Ergebnis der Analyse darstellt, umfasst den ersten Knoten 102, den zweiten Knoten 104, den dritten Knoten 106, den sechsten Knoten 112, den siebenten Knoten 114, den achten Knoten 116, den elften Knoten 122 und die Kanten zwischen diesen Knoten. Der Teilgraph 150 in diesem Beispiel stellt die kohäsivste Antwort auf eine Anfrage dar, welche durch ein erstes Schlüsselwort „YSZ“ und ein zweites Schlüsselwort „La2NiO4“ repräsentiert wird.
-
Der KG 100 beschreibt Versuchsergebnisse von Festoxidbrennstoffzellen-Vorrichtungen und Eigenschaften zugehöriger Materialien. Jede Versuchseinheit, wie etwa Experiment 1 und Experiment 2, stellt ein Versuchssetting dar, welches festlegt, welche Materialien verwendet werden (hasMaterial), und für welche Komponenten der Vorrichtung (hasElectrolyte). Die Testbedingung (atTemperature) und das Ergebnis des Versuchs, wie etwa Leistungsdichte (hasPowerDensity), werden ebenfalls gemeldet.
-
Aspekte einer Vorrichtung 200 zur automatischen Analyse von Daten sind in 2 dargestellt.
-
Die Vorrichtung 200 umfasst einen Eingang 202, wenigstens einen Prozessor 204 und einen Ausgang 206. Der Eingang 202 stellt in dem Beispiel eine Schnittstelle für Schlüsselwörter aus den Daten bereit, welche zu analysieren sind. Der wenigstens eine Prozessor 204 ist dafür ausgelegt, den Teilgraphen 150 zu bestimmen. Der Ausgang 206 ist dafür ausgelegt, das Ergebnis der Analyse auszugeben. Das Ergebnis der Analyse wird in diesem Beispiel durch den Teilgraphen 150 dargestellt.
-
Der KG 100 kann in einem Speicher 208 in der Vorrichtung 200 gespeichert werden. Der KG 100 kann in einem Speicher gespeichert werden, welcher sich außerhalb der Vorrichtung 200 befindet. Datenverbindungen verbinden den Eingang 200 und den wenigstens einen Prozessor 204, den Ausgang 206 und den wenigstens einen Prozessor 204 und den Speicher 208 und den wenigstens einen Prozessor 204. Computerlesbare Anweisungen können in dem Speicher 208 oder einem anderen Speicher gespeichert sein. Der wenigstens eine Prozessor 204 ist in dem Beispiel dafür ausgelegt, die computerlesbaren Anweisungen auszuführen, um die Analyse der Daten gemäß dem Verfahren durchzuführen, welches nachfolgend unter Bezugnahme auf 3 beschrieben wird.
-
Das Verfahren zur automatischen Analyse von Daten wird für einen Wissensgraphen G = 〈V, E〉 beschrieben, wobei V eine Menge von n numerischen Darstellungen von Knoten v1, ..., vn ist und E ⊆ V × V eine Menge von m numerischen Darstellungen von Kanten ist, welche Beziehungen zwischen Einheiten darstellen, welche durch die Knoten dargestellt werden. In dem beispielhaften KG 100 ist n = 12 und m = 12.
-
Die Daten, welche automatisch analysiert werden, umfassen wenigstens ein Schlüsselwort. Das Verfahren wird für Daten beschrieben, welche g Schlüsselwörter k1, ..., kg umfassen.
-
Die Analyse basiert auf einer Anfrage Q = (k1, ..., kg}, welche die g Schlüsselwörter k1, ..., kg umfasst.
-
In einem Schritt 302 werden die Schlüsselwörter auf numerische Darstellungen von Knoten abgebildet. Im Beispiel werden die g Schlüsselwörter k1, ..., kg auf g numerische Darstellungen von Knoten v1, ..., vg abgebildet. Ein Schlüsselwort kann auf mehrere Knoten abgebildet werden. Gemäß einem Aspekt wird wenigstens eines der g Schlüsselwörter k1, ..., kg auf wenigstens eine numerische Darstellung von Knoten v1, ..., vg abgebildet.
-
„Numerisch“ kann sich in diesem Zusammenhang auf alphanumerische oder beliebige andere Formen oder Symbole zum Darstellen von Elementen eines KG auf eine Weise, welche von dem wenigstens einen Prozessor 204, z. B. einem Computer, verarbeitet werden kann, beziehen.
-
Es kann eine Schlüsselwortabgleichsfunktion verwendet werden, um ein Schlüsselwort auf einen beliebigen Knoten des Wissensgraphen abzubilden. Zum Beispiel wird in einem Wissensgraphen, der einen Knoten „YSZ“ und einen Knoten „4YSZ“ aufweist, das erste Schlüsselwort k1 = „YSZ“ basierend auf schriftlichen Annotationen, welche dieses Schlüsselwort umfassen, auf diese zwei Knoten abgebildet. Die Erfindung ist jedoch nicht auf irgendeine spezielle Abbildungsfunktion beschränkt.
-
In 3 sind eine eines ersten Schlüsselwortes k1 auf eine numerische Darstellung eines ersten Knotens v1 und eine eines zweiten Schlüsselwortes kg auf eine numerische Darstellung eines zweiten Knotens vg dargestellt.
-
In dem beispielhaften KG 100 umfasst die Anfrage g = 2 Schlüsselwörter, und das erste Schlüsselwort k1 = „YSZ“ wird auf die numerische Darstellung des Knotens 116 abgebildet, und das zweite Schlüsselwort k2 = „La2NiO4“ wird auf die numerische Darstellung des Knotens 106 abgebildet.
-
Gemäß einem Aspekt kann eine Funktion hits (Treffer):
→2
v verwendet werden, um eine Menge IK von Schlüsselwörtern auf eine Teilmenge der numerischen Darstellungen der Knoten des Wissensgraphen G abzubilden. Gemäß diesem Aspekt wird hits(k
i) als K
i für 1 ≤ i ≤ g bezeichnet. Dabei sind K
i die numerischen Darstellungen einer Menge von Knoten, auf welche das Schlüsselwort abgebildet wird. Das Verfahren ist nicht auf diese Art und Weise des Abbildens beschränkt.
-
In einem Schritt 304 werden mehrere Wege in dem Wissensgraphen G bestimmt.
-
3 zeigt das Bestimmen 304-1, in Abhängigkeit von der numerischen Darstellung des ersten Knotens v1, einer numerischen Darstellung eines ersten Weges p1 in dem Wissensgraphen G, der am ersten Knoten v1 beginnt und an einem dritten Knoten vc des Wissensgraphen G endet, und das Bestimmen 304-g, in Abhängigkeit von der numerischen Darstellung des zweiten Knotens vg und einer numerischen Darstellung des dritten Knotens vc, einer numerischen Darstellung eines zweiten Weges pg in dem Wissensgraphen G, der am zweiten Knoten vg beginnt und am dritten Knoten vc endet.
-
Der dritte Knoten vc ist ein gemeinsamer Knoten der beiden Wege. In dem beispielhaften KG 100 ist der dritte Knoten vc der Knoten 122.
-
Gemäß einem Aspekt umfasst der Schritt 304-1 zusätzliche Schritte, um den ersten Weg p1 iterativ zu bestimmen durch
- - Bestimmen einer numerischen Darstellung eines ersten Kandidatenweges ptop in dem Wissensgraphen G, welcher am ersten Knoten v1 beginnt und an einem letzten Knoten ve endet, und
- - Auswählen einer numerischen Darstellung eines zusätzlichen Knotens vi des Wissensgraphen, welcher durch eine einzige Kante mit dem letzten Knoten ve a verbunden und noch nicht Teil des ersten Kandidatenweges ptop ist, und
- - Bestimmen der numerischen Darstellung eines zweiten Kandidatenweges p in Abhängigkeit von der numerischen Darstellung des ersten Kandidatenweges ptop und in Abhängigkeit von einer numerischen Darstellung der einzigen Kante und in Abhängigkeit von der numerischen Darstellung des zusätzlichen Knotens vi. Auf diese Weise wird der erste Weg p1 vom ersten Knoten v1 aus iterativ verlängert.
-
Das Verfahren kann das Begrenzen einer Länge des ersten Kandidatenweges ptop umfassen. Gemäß einem Aspekt wird eine Länge des ersten Kandidatenweges ptop in Abhängigkeit von der numerischen Darstellung des ersten Kandidatenweges bestimmt, und der zweite Kandidatenweg p wird nur bestimmt, falls die Länge kleiner als ein Schwellenwert d ist. Der Schwellenwert d ist ein Parameter, welcher gewählt werden kann, um die Länge zu begrenzen.
-
In einem Beispiel, das auf dem KG 100 basiert, umfasst der erste Kandidatenweg ptop die Knoten 116 und 114. In diesem Beispiel ist der Knoten 114 der letzte Knoten ve, der Knoten 112 ist der zusätzliche Knoten v1, und die Kante 132 ist die einzige Kante. Der zweite Kandidatenweg p umfasst in diesem Beispiel die Knoten 116 und 114 und 112.
-
Die numerische Darstellung des zweiten Weges pg kann auf ähnliche Weise bestimmt werden, beginnend am zweiten Knoten vg. Eine numerische Darstellung kann für jeden beliebigen anderen der mehreren Wege auf ähnliche Weise bestimmt werden, beginnend an einem der Knoten einer Teilmenge der Knoten, welche geeignet sind, Anfangsknoten zu sein.
-
In einem Schritt 306 umfasst das Verfahren das Bestimmen, in Abhängigkeit von der numerischen Darstellung des ersten Weges p
1 und in Abhängigkeit von der numerischen Darstellung des zweiten Weges p
2, einer numerischen Darstellung eines Teilgraphen T des Wissensgraphen G, der den ersten Weg p
1 und den zweiten Weg p
2 umfasst. Der Teilgraph ist in dem Beispiel definiert als
so dass: (1) T verbunden ist, (2) T sämtliche Abfrage-Schlüsselwörter abdeckt, d. h. V
T ∩ K
i ≠ 0 für 1 ≤ i ≤ g, und (3) T für (1) und (2) minimal ist.
-
In dem beispielhaften KG 100 ist der Teilgraph T durch die Knoten 102, 104, 106, 112, 114, 116 und 122 und die Kanten 126, 132, 134, 140, 142, 144 definiert.
-
In einem Schritt 308 umfasst das Verfahren das Bestimmen von Kosten c(T) in Abhängigkeit von einer Summe
von Gewichten wt(v), die den Knoten v des Teilgraphen T zugewiesen sind, und in Abhängigkeit von einer Summe
von semantischen Abständen sd(v
i, v
j) zwischen Paaren von Knoten v
i, v
j des Teilgraphen T.
-
Das Verfahren erfordert keine spezielle Implementierung des Gewichts wt und des semantischen Abstands sd. Das Gewicht wt und die Art und Weise, wie der semantische Abstand sd bestimmt wird, können so gewählt werden, dass die Relevanz der Anfrage, die Zentralität in einer Graphstruktur, die Semantik in Annotationen usw. berücksichtigt werden. Edmund Ihler, 1991, The Complexity of Approximating the Class Steiner Tree Problem, in WG 1991, 85-96, https://doi.org/10.1007/3-540-55121-2_8, liefert ein Beispiel für das Gewicht wt. Gaurav Bhalotia, Arvind Hulgeri, Charuta Nakhe, Soumen Chakrabarti, and S.
-
Sudarshan, 2002, Keyword Searching and Browsing in Databases using BANKS, in ICDE 2002, 431-440, https://doi.org/10.1109/ICDE.2002.994756, liefert ein Beispiel für den semantischen Abstand sd. Kleine Gewichte repräsentieren Salienz, und ein kleiner semantischer Abstand repräsentiert Kohäsion. Die Berechnung des Gewichts wt und die des semantischen Abstands sd können unabhängig voneinander erfolgen. In dem Wissensgraphen werden Gewichte seinen Knoten zugewiesen. Gewichte von Knoten werden zum Beispiel im Voraus berechnet, z. B. unter Verwendung von normiertem pageRank.
-
In dem Wissensgraphen sind Kanten zum Beispiel vorausberechnete Beziehungen zwischen Knoten.
-
In dem Wissensgraphen werden semantische Abstände zum Beispiel für Paare seiner Knoten vorausberechnet.
-
Die Kosten c(T) werden zum Beispiel in Abhängigkeit von einem Produkt der Summen bestimmt, z. B. als
wobei α ∈ [0,1] ein Parameter ist.
-
Das Verfahren umfasst einen Schritt 310 des Bestimmens, in Abhängigkeit von den Kosten c(T), ob die numerische Darstellung des Teilgraphen T oder eine numerische Darstellung eines Referenz-Teilgraphen Topt auszugeben ist.
-
Der Teilgraph T erfüllt die erste Bedingung zum Beispiel, wenn in Abhängigkeit von Referenzkosten c(Topt) für den Referenz-Teilgraphen Topt bestimmt wird, dass die erste Bedingung erfüllt ist.
-
Die erste Bedingung ist zum Beispiel erfüllt, wenn die Kosten c(T) für den Teilgraphen T kleiner als die Referenzkosten c(Topt) sind.
-
Der Referenz-Teilgraph Topt und die Referenzkosten c(Topt) sind in diesem Beispiel z. B. aus vorangegangenen Berechnungen verfügbar.
-
Falls die Kosten c(T) die erste Bedingung erfüllen, umfasst der Schritt 310 das Ausgeben der numerischen Darstellung des Teilgraphen T, und andernfalls umfasst er das Ausgeben der numerischen Darstellung des Referenz-Teilgraphen Topt.
-
Anschließend wird ein Schritt 312 ausgeführt.
-
Im Beispiel des KG 100 ist die numerische Darstellung, welche ausgegeben wird, diejenige für den Teilgraphen 150, welcher am kohäsivsten ist.
-
Im Schritt 312 wird die ausgegebene numerische Darstellung auf ein Ergebnis der Analyse ausgegeben. Das Ergebnis der Analyse kann die Schlüsselwörter umfassen, welche die Knoten und/oder Kanten des Teilgraphen Topt repräsentieren. In einem Beispiel umfasst das Ergebnis der Analyse das Schlüsselwort des gemeinsamen Knotens, d. h. des dritten Knotens vc. In dem beispielhaften KG 100 kann für die Anfrage, welche die Schlüsselwörter „YSZ“ und „La2NiO4“ umfasst, das Ergebnis der Analyse zum Beispiel nur das Schlüsselwort „Metalloxid“ umfassen, oder die folgenden Schlüsselwörter: La2NiO4, Typ, Metalloxid, YSZ, Typ, Stabilisiertes Zirconium, subClass, Zirconiumoxid, subClass, Zirconiumdioxid, subClass, Schwermetalloxid, subClass, Metalloxid.
-
Gemäß einem Aspekt kann eine Kostenschranke c(ptop) für den Kandidatenweg ptop bestimmt werden, und der erste Weg p1 und der zweite Weg p2 können unabhängig von dem Kandidatenweg ptop bestimmt werden, falls die Kostenschranke c(ptop) eine zweite Bedingung erfüllt.
-
Die Kostenschranke c(ptop) wird in dem Beispiel in Abhängigkeit von einer Summe von Gewichten, die den Knoten des Kandidatenweges ptop zugewiesen sind, und in Abhängigkeit von einer Summe von semantischen Abständen zwischen Paaren von Knoten des Kandidatenweges ptop bestimmt. Die Kostenschranke c(ptop) ist eine Schätzung für die Kosten, welche für den Teilgraphen T resultieren werden, welcher den Kandidatenweg ptop enthält. Die Kostenschranke c(ptop) ist in dem Beispiel eine untere Schranke für die Kosten für den Teilgraphen T, denn wenn annimmt, dass für Gewichte oder semantische Abstände keine negativen Werte zulässig sind, weist der Teilgraph T dieselben oder mehr Kosten auf, als der Kandidatenweg ptop.
-
Eine untere Schranke für die Kosten wird in einem Beispiel für die Knoten des Kandidatenweges p
top bestimmt als
Der erste Term wird gemäß einem Aspekt bestimmt als
wobei die erste Summe die bekannten Knoten des Kandidatenweges p
top umfasst und die zweite Summe die unbekannten Knoten des restlichen Teilgraphen T, d. h. nach Ausschluss der bekannten Knoten, umfasst.
-
kann berechnet werden, indem ein gewichtetes Mengenüberdeckungsproblem formuliert und gelöst wird:
Grundmenge von Elementen: | Q\QK(Vptop ) |
Mengen von Elementen: | jedes Ø ⊂ Q' ⊆ (Q\QK (Vptop ) |
unterliegt Bedingung: | ∃v ∈ V, QK({v})\QK (Vptop ) = Q' |
Gewichte der Mengen: | |
wobei QK (V
ptop ) = {k
i ∈ Q: V
ptop ∩ K
i ≠ ∅}.
-
Die untere Schranke
c wt(p
top) wird in einem Beispiel geschätzt als:
wobei Q'
opt eine optimale Lösung für das gewichtete Mengenüberdeckungsproblem ist. Diese Lösung kann durch dynamische Programmierung berechnet werden.
-
Der zweite Term wird gemäß einem Aspekt bestimmt als
wobei die Summe die bekannten Knoten des Kandidatenweges p
top umfasst,
wobei Q''
opt eine optimale Lösung für ein insbesondere ungewichtetes Mengenüberdeckungsproblem ist:
Grundmenge von Elementen: | Q\QK(Vptop ) |
Mengen von Elementen: | jedes 0 c Q'' c (Q\QK (Vptop )) |
unterliegt Bedingung: | ∃v ∈ V, QK({v})\QK (Vptop ) = Q" |
wobei |Q''
opt | eine Anzahl von Mengen in Q''
opt ist und |V
ptop l eine Anzahl von Knoten in p
top ist.
-
Gemäß dem Beispiel von 3 waren der Referenz-Teilgraph Topt und die Referenzkosten c(Topt) verfügbar. Alternativ dazu kann der Referenz-Teilgraph Topt verfügbar sein, und die Referenzkosten c(Topt) werden aus den Gewichten und semantischen Differenzen für die Knoten des Referenz-Teilgraphen Topt auf dieselbe Weise bestimmt, wie es für die Kosten c(T) beschrieben wurde.
-
Gemäß einem Aspekt kann das Verfahren in Schritt 304 das Ordnen der numerischen Darstellungen von Kandidatenwegen in einer Menge von Kandidatenwegen PQ nach ihrer jeweiligen Kostenschranke c(ptop) umfassen. Gemäß diesem Aspekt kann das Verfahren das Auswählen der numerischen Darstellung des Kandidatenweges aus der Menge PQ umfassen, welche eine vorbestimmte Position in der Reihenfolge hat.
-
Gemäß einem Aspekt des Verfahrens wird die numerische Darstellung, welche in Schritt 310 ausgegeben wird, gemäß den folgenden Anweisungen bestimmt:
wobei das Verfahren PQ. insert() eine numerische Darstellung eines Knotens v oder eines Weges p zu PQ hinzufügt, und wobei das Verfahren PQ.pull() eine numerische Darstellung eines Weges p aus PQ auswählt. Der einzelne Knoten v wird für diesen Zweck auch als ein Weg p betrachtet.