DE102021209612A1

DE102021209612A1 - Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten

Info

Publication number: DE102021209612A1
Application number: DE102021209612.3A
Authority: DE
Inventors: Evgeny Kharlamov
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2023-03-02
Also published as: US20230061644A1; JP2023036039A

Abstract

Es werden ein Computer-implementiertes Verfahren, eine Vorrichtung und ein Computerprogramm zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes (D) bereitgestellt, wobei der RDF-Datensatz (D) eine Menge von Tripeln umfasst, wobei der RDF-Datensatz (D) als ungerichteter Graph (KG) bereitgestellt wird, der Knoten (N) und Kanten (E) umfasst, wobei Knoten (N) Entitäten (e) und Kanten (e) Verknüpfungen zwischen Entitäten (e) repräsentieren.

Description

Hintergrund
Die Erfindung betrifft eine Vorrichtung, ein Computerprogramm und ein Computer-implementiertes Verfahren zur automatischen Analyse von Daten.
Ein Kenntnisgraph KG kann zur automatischen Analyse von Daten verwendet werden. Ein Ergebnis einer Analyse von Daten kann automatisch bestimmt werden.
Offenbarung
Die Vorrichtung, das Verfahren und das Computerprogramm gemäß den unabhängigen Ansprüchen verbessern die automatische Analyse weiter.
Die Offenbarung betrifft ein Computer-implementiertes Verfahren zur automatischen Analyse eines Datensatzes des RDF (Ressourcenbeschreibungsrahmens), wobei der RDF-Datensatz eine Menge von Tripeln umfasst, wobei der RDF-Datensatz als ein ungerichteter Graph (D) bereitgestellt wird, der Knoten und Kanten umfasst, wobei Knotenentitäten und Kantenverknüpfungen zwischen Entitäten repräsentieren. Das Verfahren umfasst die folgenden Schritte:

Erzeugung
- - für jede Entität auf Instanzebene mindestens eines Entitätsbeschreibungsmusters, das mindestens ein Tripel umfasst, das mindestens eine Klasse und/oder mindestens eine Eigenschaft der Entität beschreibt, und
- - für jede Kanten, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mindestens eines Verknüpfungsbeschreibungsmusters, das mindestens ein Tripel umfasst, das die Verknüpfung zwischen den zwei Entitäten auf Instanzebene beschreibt;
Erzeugung eines Entitätsverknüpfungsgraphen durch Umwandeln von Kanten des ungerichteten Graphen in Knoten, wobei alle Knoten, die dasselbe Entitätsbeschreibungsmuster oder dasselbe Verknüpfungsbeschreibungsmuster umfassen, eine Gruppe bilden;
Erzeugung eines Subgraphen des Entitätsverknüpfungsgraphen, der mindestens einen Knoten aus jeder Gruppe verbindet;
Erzeugen eines erweiterten Subgraphen durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen, der eine Entitätsverknüpfung repräsentiert, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten, die er verknüpft, verbunden ist;
Erzeugen einer repräsentativen Teilmenge des RDF-Datensatzes aus dem erweiterten Subgraphen durch Hinzufügung von Folgendem:
- - für jeden Knoten in dem erweiterten Subgraphen, der eine Entität aus dem Entitätsbeschreibungsmuster repräsentiert, mindestens eines Tripels, das eine Klasse der Entität beschreibt,
und mindestens eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt, und
- - für jeden Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mindestens eines Tripels aus
dem Verbindungsbeschreibungsmuster.

Die repräsentative Teilmenge des RDF-Datensatzes ist ein Musterabdeckungs-Snippet. Zur Wiederverwendung eines RDF-Datensatzes ist Verständnis seines Inhalts eine Voraussetzung. Um das Verständnis seiner großen und komplexen Struktur zu unterstützen, erzeugen existierende Verfahren hauptsächlich eine abgekürzte Version eines RDF-Datensatzes durch Extrahieren von repräsentativen Datenmustern als Kurzfassung. Als Komplement extrahieren neuere Versuche eine repräsentative Teilmenge konkreter Daten als ein Snippet.
Snippet und Kurzfassung stellen komplementäre Ansichten eines RDF-Datensatzes bereit: Snippets enthalten repräsentative Tripel auf Instanzebene und Kurzfassungen umfassen repräsentative Muster auf Schemaebene. Gemäß der vorliegenden Erfindung wird die Stärke einer Kurzfassung in ein Snippet injiziert, indem ein Musterabdeckungs-Snippet erzeugt wird, das die Muster von Entitätsbeschreibungen und Verknüpfungen in einem RDF-Datensatz am besten exemplifiziert.
Beim Erzeugen des Entitätsverknüpfungsgraphen durch Umwandeln von Kanten des ungerichteten Graphen in Knoten bilden vorzugsweise alle Knoten, die dasselbe Entitätsbeschreibungsmuster oder dasselbe Verknüpfungsbeschreibungsmuster umfassen, eine Gruppe.
Der Subgraph des Entitätsverknüpfungsgraphen wird vorzugsweise so erzeugt, dass der Subgraph mindestens einen Knoten aus jeder Gruppe verbindet.
Gemäß einer bevorzugten Ausführungsform umfasst beim Erzeugen einer repräsentativen Teilmenge des RDF aus dem erweiterten Subgraphen das Verfahren, für jeden Knoten in dem erweiterten Subgraphen, der eine Entität aus dem Entitätsbeschreibungsmuster repräsentiert, all die Tripel hinzuzufügen, die eine Klasse der Entität beschreiben, und nur ein Tripel, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt.
Ein RDF-Datensatz umfasst eine Menge von Tripeln, nämlich (Subjekt, Prädikat, Objekt)-Tripel. Subjekte oder Objekte solcher Tripel werden als Entitäten bezeichnet. Prädikate werden als Relationen bezeichnet. Die Menge von Tripeln kann naturgemäß als gerichteter Graph repräsentiert werden, dessen Knoten und Kanten gekennzeichnet sind. Elemente des RDF-Datensatzes und des Kenntnisgraphen können zwischen Elementen auf Instanzebene und Elementen auf Schemaebene unterschieden werden, wobei ein Schema eine formale Beschreibung des Elements ist und die Instanz die spezifische Information ist, die tatsächlich im Datensatz gespeichert ist.
Die Elemente auf Schemaebene in diesen Tripeln bilden das Entitätsbeschreibungsmuster (EDP) von e, bestehend aus Mengen von Klassen (C), Vorwärtseigenschaften (FP) und Rückwärtseigenschaften (BP): $edp (e,D) = < C (e,D), FP (e,D), BP (e,D) >,$
$C (e,D) = {c : \exists < e, rdf : typ, c > \in D},$
$FP (e,D) = {p : \exists < e, p, o > \in D} \ {rdf : typ},$
$BP (e,D) = {p : \exists < s, p, e > \in D} .$
Ein Tripel, bei dem das Objekt eine Entität ist, ist von besonderem Interesse, da es eine Verknüpfung zwischen zwei Entitäten repräsentiert. Das Prädikat und die EDP der zwei Entitäten in einem solchen Tripel <e_i, p, e_j> bilden das Verknüpfungsmuster (LP) dieses Tripels: $lp (< e_{i}, p {, e}_{j}, D) = < epd (e_{i},D), p, edp (e_{j},D) >$
Gemäß einer bevorzugten Ausführungsform umfasst das Verfahren ferner einen Schritt des Kennzeichnens jeder Entität auf Instanzebene mit ihrem Entitätsbeschreibungsmuster und/oder des Kennzeichnens jeder Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mit ihrem Verknüpfungsbeschreibungsmuster.
Gemäß einer bevorzugten Ausführungsform umfasst der Schritt des Umwandelns von Kanten des ungerichteten Graphen in Knoten Unterteilen jeder Kante.
Gemäß einer bevorzugten Ausführungsform basiert Erzeugung eines Subgraphen des Entitätsverknüpfungsgraphen auf Lösung eines Gruppen-Steiner-Baum-Problems.
Um mit Diskonnektivität in einem Datensatz umzugehen, wird vorzugsweise die Vereinigung aller Entitätsbeschreibungsmuster und aller Verknüpfungsbeschreibungsmuster als die universelle Menge betrachtet, und für jede Komponente D_j des RDF-Datensatzes ist EDP(D_j) u LP(D_j) ⊆ EDP(D) u LP(D) eine Menge, wobei das Verfahren einen Schritt des Findens der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist, umfasst.
Vorzugsweise umfasst das Verfahren einen Schritt des Bestimmens der Häufigkeit der Entitätsbeschreibungsmuster und/oder der Häufigkeit der Verknüpfungsbeschreibungsmuster. Die Häufigkeit wird als das Aufkommen des Musters in dem RDF-Datensatz definiert.
Vorzugsweise umfasst das Verfahren einen Schritt des Einstufens der Entitätsbeschreibungsmuster und/oder der Verknüpfungsbeschreibungsmuster gemäß ihrer Häufigkeit, zum Beispiel auf der Basis absteigender Reihenfolge.
Gemäß einer bevorzugten Ausführungsform umfasst das Verfahren einen Schritt des Begrenzens des Subgraphen des Entitätsverknüpfungsgraphen auf der Basis der Häufigkeit von Entitätsbeschreibungsmustern und/oder auf der Basis der Häufigkeit von Verknüpfungsbeschreibungsmustern, dergestalt, dass der Subgraph mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster und/oder Verknüpfungsbeschreibungsmuster mit einer Häufigkeit über einer definierten Schwelle beziehen.
Weitere vorteilhafte Ausführungsformen sind aus der folgenden Beschreibung und der Zeichnung ableitbar. Es zeigen:

1 einen beispielhaften Kenntnisgraphen,
2 Aspekte eines Verfahrens zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes D;
3 weitere Aspekte des Verfahrens zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes D;
4 weitere Aspekte des Verfahrens zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes D;
5 Aspekte der Evaluierung des Verfahrens in Bezug auf Raumersparnisse;
6 Aspekte der Evaluierung des Verfahrens in Bezug auf kumulative Verteilungen von Raumersparnissen;
7 Aspekte der Evaluierung des Verfahrens in Bezug auf kumulative Verteilungen von Snippet-Größen;
8 Aspekte der Evaluierung des Verfahrens in Bezug auf eine Laufzeit und
9 Aspekte der Evaluierung des Verfahrens in Bezug auf kumulative Verteilungen der Laufzeit.

1 zeigt einen beispielhaften Kenntnisgraphen KG 100. Der Kenntnisgraph ist eine Präsentation von Daten eines RDF-Datensatzes D, der eine Menge von Tripeln, nämlich <Subjekt, Prädikat, Objekt>-Tripeln umfasst. Subjekte oder Objekte solcher Tripel werden als Entitäten bezeichnet. Prädikate werden als Relationen bezeichnet. Die Menge von Tripeln eines KG kann naturgemäß als gerichteter Graph repräsentiert werden, dessen Knoten und Kanten gekennzeichnet sind. Elemente des RDF-Datensatzes und des Kenntnisgraphen können zwischen Elementen auf Instanzebene und Elementen auf Schemaebene unterschieden werden, wobei ein Schema eine formale Beschreibung des Elements ist und die Instanz die tatsächlich in dem Datensatz gespeicherte spezifische Information ist.
Die Knoten N1.1, N1.2, N2, N3.1, N3.2, N4.1, N4.2, N4.3, N5.1, N5.2 und N5.3 des Kenntnisgraphen KG beziehen sich auf Entitäten auf Instanzebene, zum Beispiel:

N1.1: Deutschland, kurz DE
N1.2: Vereinigtes Königreich, kurz UK
N2: Europa,
N3.1: Berlin,
N3.2: London,
N4.1: München,
N4.2: Augsburg,
N4.3: Oxford,
N5.1: spezifische Zahl 1
N5.2: spezifische Zahl 2
N5.3: spezifische Zahl 3

Die Knoten N6 und N7 des Kenntnisgraphen KG beziehen sich auf Entitäten auf Schemaebene, zum Beispiel:

N6: Hauptstadt
N7: Stadt.

Die Kanten E1, E2, E3.1 und E3.2 des Kenntnisgraphen KG beziehen sich auf Relationen auf Instanzebene, zum Beispiel:

E1: Teil von
E2: Hauptstadt von
E3.1 befindlich in
E3.2 befindlich in.

Die Kanten E4 und E5 des Kenntnisgraphen KG beziehen sich auf Relationen auf Schemaebene, zum Beispiel:

E4: Typ
E5: Bereich

In den Tripeln des RDF-Datensatzes D wird eine Entität e auf Instanzebene durch eine Teilmenge von Tripeln beschrieben, wobei e das Subjekt oder das Objekt ist. Die Elemente auf Schemaebene in diesen Tripeln bilden das Entitätsbeschreibungsmuster (EDP) von e, bestehend aus Mengen von Klassen (C), Vorwärtseigenschaften (FP) und Rückwärtseigenschaften (BP): $edp (e,D) = < C (e,D), FP (e,D), BP (e,D) >,$
$C (e,D) = {c : \exists < e, rdf : typ, c > \in D},$
$FP (e,D) = {p : \exists < e, p, o > \in D} \ {rdf : typ},$
$BP (e,D) = {p : \exists < s, p, e > \in D} .$
Ein Tripel, bei dem das Objekt eine Entität ist, ist von besonderem Interesse, da es eine Verknüpfung zwischen zwei Entitäten repräsentiert. Das Prädikat und die EDP der zwei Entitäten in einem solchen Tripel <e_i, p, e_j> bilden das Verknüpfungsmuster (LP) dieses Tripels. $lp (< e_{i}, p {, e}_{j}, D) = < epd (e_{i},D), p, edp (e_{j},D) > .$
Nunmehr mit Bezug auf 1 können die folgenden beispielhaften Muster erhalten werden: $\begin{array}{l} edp (Berlin, D) = edp (London, D) = p1=< {Hauptstadt, Stadt}, {HauptstadtVon, \\ befindlichln}, ø > \end{array}$
$\begin{array}{l} epd (DE, D) = epd (UK, D) = p2 = ø, {TeilVon, Bereich}, {HauptstadtVon, \\ befindlichln} > \end{array}$
$\begin{array}{l} lp (< Berlin, I befindlichln, DE>, D) = lp (< London, befindlichln, UK>, D) = < p1, \\ befindlichln, p2> . \end{array}$
Die Menge aller EDP und die Menge aller LP in D, bezeichnet durch EDP(D) bzw. LP(D) werden durch Iterieren über alle Entitäten und Verknüpfungen in D erhalten.
Vorzugsweise kann jeder Knoten des KG in 1 mit seinem EDP gekennzeichnet werden, und jede Kante kann mit ihrem LP gekennzeichnet werden.
2 repräsentiert eine Entitätsverknüpfungsgraph-Repräsentation ELG des RDF-Datensatzes D. Die ELG kann durch Umwandeln gekennzeichneter Kanten von KG in gekennzeichnete Knoten durch Unterteilen jeder Kante erhalten werden. Die Unterteilung wird als die Entitätsverknüpfungsgraph-Repräsentation des RDF-Datensatzes D bezeichnet. Der Entitätsverknüpfungsgraph ELG wird reduziert, um nur Elemente auf Instanzebene zu enthalten.
3 repräsentiert einen erweiterten Subgraphen eSG des Entitätsverknüpfungsgraphen ELG. Der erweiterte Subgraph eSG wird folgendermaßen erzeugt:

Als Erstes wird ein Subgraph SG des Entitätsverknüpfungsgraphen ELG erzeugt, der mindestens einen Knoten aus jeder Gruppe verbindet. Der Subgraph SG wird auf der Basis der Lösung eines Gruppen-Steiner-Baum-Problems erzeugt. Das heißt im Wesentlichen Erzeugung des kleinsten verbundenen Subgraphen des Entitätsverknüpfungsgraphen ELG, dessen Knotenkennzeichnungen das Entitätsbeschreibungsmuster EDP und Verknüpfungsbeschreibungsmuster LP abdeckt. Gemäß einer Ausführungsform wird der Subgraph als eine ungewichtete Version des Gruppen-Steiner-Baum-Problems erzeugt: alle Knoten mit derselben Kennzeichnung bilden eine Gruppe. Lösung des Gruppen-Steiner-Baum-Problems erfordert Finden eines kleinsten Baums, der mindestens einen Knoten aus jeder Gruppe verbindet, und daher deckt er alle distinkten Kennzeichnungen ab. Das Gruppen-Steiner-Baum-Problem kann unter Verwendung eines auf dem neuesten Stand befindlichen Approximationsalgorithmus gelöst werden, zum Beispiel KeyKG+, offenbart in Shi, Y., Cheng, G., Kharlamov, E.: Keyword search over knowledge graphs via static and dynamic hub labellings. In: WWW 2020. S. 235-245 (2020).

Nunmehr mit Bezug auf 2 enthält der Subgraph die folgenden Knoten N1.1, N2, N3.1 und N41, die Entitäten repräsentieren, und die folgenden E1, E2, E3.2 und E3.2, die Verknüpfungen zwischen Entitäten repräsentieren.
Als Zweites wird der erweiterte Subgraph eSG durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen, der eine Entitätsverknüpfung repräsentiert, erzeugt, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten verbunden ist, die er verknüpft. Dies ist in 3 durch die gestrichelte Linie zwischen den Knoten E3.1 und N3.1 angegeben. Gemäß einer Ausführungsform wird für jedes Blatt in dem berechneten Subgraphen, das eine Entitätsverknüpfung repräsentiert, der Subgraph so erweitert, dass er beide Entitäten enthält, die es verknüpft.
Im Allgemeinen offenbart 4 eine repräsentative Teilmenge S des RDF-Datensatzes D, erzeugt aus dem erweiterten Subgraphen eSG.
Die repräsentative Teilmenge S ist ein Musterabdeckungs-Snippet S des RDF-Datensatzes D.
Gemäß dem Beispiel von 4 kann die repräsentative Teilmenge S folgendermaßen aus dem erweiterten Subgraphen eSG abgeleitet werden. Für jeden Knoten in dem erweiterten Subgraphen eSG, der eine Entität aus dem Entitätsbeschreibungsmuster repräsentiert, Hinzufügen aller Tripel, die eine Klasse der Entität beschreiben, und nur eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt. Ferner wird für jeden Knoten in dem erweiterten Subgraphen SG, der eine Entitätsverknüpfung repräsentiert, sein entsprechendes Tripel aus dem Verknüpfungsbeschreibungsmuster LP hinzugefügt.
Die mit Bezug auf 1 bis 4 beschriebenen Ausführungsformen basieren auf einer Annahme von Konnektivität des RDF-Datensatzes D. Mit Diskonnektivität des RDF-Datensatzes kann folgendermaßen umgegangen werden.
Diskonnektivität kann als eine Instanz des wohlbekannten Mengenabdeckungsproblems betrachtet werden, wobei die Vereinigung aller Entitätsbeschreibungsmuster EDP(D) und aller Verknüpfungsbeschreibungsmuster LP(D) als die universelle Menge betrachtet wird und für jede Komponente D_j des RDF-Datensatzes EDP(D_j) u LP(D_j) ⊆ EDP(D) u LP(D) eine Menge ist. Das Mengenabdeckungsproblem wird gelöst durch Finden der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist.
Das Lösen umfasst eine iterative Erzeugung einer repräsentativen Teilmenge S, bis die universelle Menge voll abgedeckt ist. Für jede Komponente D_i, die die größte Anzahl unabgedeckter Muster enthält, wird wie zuvor beschrieben eine repräsentative Teilmenge S erzeugt.
Gemäß einer vorteilhaften Ausführungsform kann das Erzeugen der repräsentativen Teilmenge S modifiziert werden, um ein möglicherweise kleineres Sub-Snippet einer Komponente D_i zu erzeugen. Das Sub-Snippet muss nur den Teil der Vereinigung der Entitätsbeschreibungsmuster EDP(D_i) und der Beschreibungsmuster LP(D_i) abdecken, der sich mit der universellen Menge schneidet, statt die vollständige Vereinigung EDP(D_i) u LP(D_i). Dadurch können beim Erzeugen des Subgraphen SG von ELG die Gruppen, die den Mustern in der Vereinigung EDP(D_i) u LP(D_i) ohne die universelle Menge entsprechen, ignoriert werden.
Dadurch kann die Kompaktheit der repräsentativen Teilmenge S und die Effizienz ihrer Erzeugung verbessert werden, indem darauf abgezielt wird, eine kleinste Teilmenge von Komponenten zu finden, die alle Muster in dem RDF-Datensatz D abdecken.
Falls der RDF-Datensatz D sehr heterogen ist und viele verschiedene Muster enthält, wird die repräsentative Teilmenge S unausweigerlich sehr groß sein. Die folgenden Schritte erzielen einen Kompromiss zwischen Musterabdeckung und Snippet-Größe zum Umgang mit hoher Heterogenität. Muster im RDF-Datensatz können nicht gleich wichtig sein. Die relative Häufigkeit eines Entitätsbeschreibungsmusters EDP wird als der Anteil von Entitäten definiert, von denen dieses Entitätsbeschreibungsmuster EDP im RDF-Datensatz ist. Die relative Häufigkeit eines Verknüpfungsbeschreibungsmusters LP wird analog definiert. Häufigere Muster können als wichtiger betrachtet werden. Die erzeugten Muster EDP, LP können in ihrer absteigenden Reihenfolge relativer Häufigkeit eingestuft werden.
Beim Erzeugen des Subgraphen SG des Entitätsverknüpfungsgraphen ELG kann der Subgraph SG auf der Basis einer Häufigkeit von Entitätsbeschreibungsmustern und/oder auf der Basis einer Häufigkeit von Verknüpfungsbeschreibungsmustern begrenzt werden, dergestalt, dass der Subgraph mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster und/oder Verknüpfungsbeschreibungsmuster mit einer Häufigkeit über einer definierten Schwelle beziehen. Die Schwelle beschreibt zum Beispiel einen Prozentsatz.
Auf dieser Basis ist die erzeugte repräsentative Teilmenge S ein möglicherweise kleineres Snippet, das nur die wichtigsten Muster im RDF-Datensatz D abdeckt.
Die folgende Ausführungsform bezieht sich auf Erzeugung einer repräsentativen Teilmenge S mit Anfrage-Bias.
Eine Schlüsselwortanfrage Q umfasst mindestens ein Schlüsselwort oder mehrere Schlüsselwörter. Jedes Schlüsselwort wird als ein Schlüsselwortmuster betrachtet. Jede Entität oder Entitätsverknüpfung im RDF-Datensatz D wird erweitert, um eine Menge von Mustern aufzuweisen, die aus ihrem Entitätsbeschreibungsmuster EDP oder Verknüpfungsbeschreibungsmuster LP und allen Schlüsselwortmustern, mit denen sie übereinstimmt, besteht. Die Berechnung kann durch einen herkömmlichen Abgleicher geschehen. Eine Entität e stimmt mit einem Schlüsselwort q ∈ Q überein, wenn q in jedem Tripel erscheint, das die Entität e (der RDF-Datensatz D) beschreibt. Eine Entitätsverknüpfung <e_i, p, e_j> stimmt mit einem Schlüsselwort q überein, wenn das Schlüsselwort q in der textlichen Form von p erscheint. Für jedes Schlüsselwortmuster eines Schlüsselworts q ∈ Q wird dementsprechend eine Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit Schlüsselwort q übereinstimmen, hinzugefügt. Beim Erzeugen des Subgraphen SG des Entitätsverknüpfungsgraphen ELG dergestalt, dass er mindestens einen Knoten aus jeder Gruppe verbindet, werden dadurch die Schlüsselwörter berücksichtigt, indem für jedes Schlüsselwort q die Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit dem jeweiligen Schlüsselwort q übereinstimmen, hinzugefügt wird.
Auf dieser Basis stimmt die erzeugte repräsentative Teilmenge S mit allen Schlüsselwörtern in q überein.
Stand der Technik: Cheng, G., Jin, C., Ding, W., Xu, D., Qu, Y.: Generating illustrative snippets for open data on the web. In: WSDM 2017. S. 151-159 (2017) offenbart auch ein Verfahren zur Erzeugung von Snippets mit der Bezeichnung IlluSnip. Um den Inhalt eines großen RDF-Datensatzes kompakt zu exemplifizieren, erzeugt IlluSnip ein Snippet durch Formulieren eines Verbundener-Graph-Problems mit Maximal-Gewicht- und -Abdeckung. Es versucht, eine optimale Teilmenge von K Tripeln, repräsentiert als ein verbundener RDF-Graph, der die häufigsten Klassen, Eigenschaften und die zentralsten Entitäten im RDF-Datensatz abdeckt, zu extrahieren. Anders als IlluSnip formuliert KSD, offenbart in Wang, X., Cheng, G., Kharlamov, E.: Towards multi-facet snippets for dataset search. In: PROFLILES & SemEx 2019. S. 1-6 (2019), ein gewichtetes-Maximum-Abdeckungsproblem, wobei es die Beschränkung bezüglich Konnektivität beseitigt. Sein Ziel der Optimierung versucht ferner, die meisten Schlüsselwörter in einer Schlüsselwortanfrage abzudecken, so dass es für RDF-Datensatz-Suchmaschinen geeignet ist. Verglichen mit IlluSnip und KSD versucht dieser Ansatz auch, Elemente auf Schemaebene abzudecken, wobei der Fokus auf Mustern von Entitätsbeschreibungen und Verknüpfungen liegt, die Kombinationen von Klassen und Eigenschaften sind. Muster können eine Vorschau „höherer Ordnung“ von Daten als getrennte Klassen und Eigenschaften bereitstellen.
Im Folgenden werden Raumersparnis und Laufzeit dieses Ansatzes mit IlluSnip und KSD verglichen. Dieser Ansatz wird als PSCG bezeichnet.
Die Raumersparnis eines Ansatzes an einem RDF-Datensatz ist definiert als: $\begin{array}{l} Raumersparnis = 1 - \underline{Anzahl der Tripel in der erzeugten Snippet - Anzahl von} \\ \underline{Tripeln im RDF - Datensatz} \\ \begin{matrix} Anzahl der Tripel im RDF-Darensatz \end{matrix} \end{array}$
Die Größe eines Snippet wird über die Anzahl der Tripel gemeldet. Ferner wird die Laufzeit jedes Ansatzes an einem RDF-Datensatz gemeldet.
Für die Evaluierung wurden Datensätze mit RDF-Dumps aus zwei Datenportalen abgerufen: DataHub.io und Data.gov, wobei Apache Jena 3.9.0 verwendet wurde, um 9544 RDF-Datensätze zu parsen. Es muss beachtet werden, dass viele Entitäten in Datensätzen aus Data.gov keinen Typ aufweisen und durch gleichförmige Muster, wahrscheinlich umgewandelt aus Tabellendaten, beschrieben werden.
Die Raumersparnis des PSCG-Ansatzes wurde an jedem der 9544 RDF-Datensätze berechnet. Die Ergebnisse sind in der Tabelle von 5 zusammengefasst. Der PSCG-Ansatz hat im Wesentlichen die Größe eines RDF-Datensatzes um durchschnittlich etwa 90% reduziert. Die Raumersparnisse von PCSG, PCSG-90% und PCSG-80% lagen über 95% an 57%, 69% bzw. 72% aller RDF-Datensätze, wie durch die kumulativen Verteilungen in 6 dargestellt. Die Median-Anzahlen von Tripeln in ihren erzeugten Snippets betrugen nur 41, 20 bzw. 17, wie durch die kumulativen Verteilungen in 7 dargestellt. Die Ergebnisse unterstützen die Kompaktheit der mit dem PSCG-Ansatz erzeugten Snippets.
Für jeden Ansatz wurde die Laufzeit an jedem der 9544 RDF-Datensätze aufgezeichnet. Die Ergebnisse sind in der in 8 abgebildeten Tabelle zusammengefasst. PCSG(-τ) war mehr als zwei Größenordnungen schneller als IlIuSnip. Die Laufzeit von PCSG, PCSG-90%, und PCSG-80% lag an 98%, 98% bzw. 99% aller RDF-Datensätze unter einer Sekunde, wie durch die kumulativen Verteilungen in 9 dargestellt. Die Ergebnisse unterstützen die Effizienz der Berechnung des PSCG-Ansatzes. Für mehrere stark heterogene Datensätze, die tausende EDP und LP enthalten, hat PCSG(-τ) jedoch mehr als eine Stunde gebraucht. Obwohl es immer noch schneller als IlluSnip und als Offline-Berechnung akzeptabel ist, suggeriert es Platz für weitere Verbesserung der Leistungsfähigkeit des PSCG-Ansatzes.
Das Verfahren wird vorzugsweise angewandt, wenn RDF-Datensätze mit einem neuronalen Netz verarbeitet werden. Der Datensatz umfasst zum Beispiel Daten aus dem Gebiet der Herstellung oder Produktion, zum Beispiel Informationen über Materialien und Substanzen und ihre Eigenschaften. Die RDF-Datensätze werden zum Beispiel in Bezug auf Automatisierung, Diagnostik und Optimierung verarbeitet. Die repräsentative Teilmenge S des RDF-Datensatzes kann für eine schnelle Schätzung oder Evaluierung des RDF-Datensatzes zuerst verarbeitet werden.
Weitere Ausführungsformen beziehen sich auf das computerimplementierte Verfahren zum Verarbeiten von RDF-Datensätzen, insbesondere mit neuronalen Netzen. Die Verwendung des Verfahrens bezieht sich auf automatisches Erzeugen der repräsentativen Teilmenge S des RDF-Datensatzes, um dadurch Informationen aus Textdaten zu extrahieren, zum Beispiel in Bezug auf Entitäten, insbesondere Personen, Orte, Organisationen usw. und/oder in Bezug auf Konzepte, insbesondere Proteine, Chemikalien, Materialien, Automatisierungsprozesse, Diagnostik und Optimierung.
Weitere Ausführungsformen beziehen sich auf die Verwendung des Computer-implementierten Verfahrens zum Verarbeiten einer Anzahl von RDF-Datensätzen (mindestens zwei RDF-Datensätze), insbesondere mit einem neuronalen Netz, mit den folgenden Schritten: Empfangen einer Schlüsselwortanfrage Q, Erzeugen einer repräsentativen Teilmenge S mit Anfrage-Bias der mindestens zwei RDF-Datensätze und Bestimmen einer Ähnlichkeit und/oder eines Ähnlichkeitsgrads zwischen der Schlüsselwortanfrage Q und jeder repräsentativen Teilmenge S mit Anfrage-Bias. Auf der Basis der Ähnlichkeit und/oder des Ähnlichkeitsgrads kann eine geeignete repräsentative Teilmenge und deshalb ein geeigneter RDF-Datensatz in Bezug auf die Schlüsselwortanfrage Q bestimmt werden. Die Bestimmung von Ähnlichkeit und/oder Ähnlichkeitsgrad kann zum Beispiel auf Vektoreinbettungen der Wörter, nämlich der Schlüsselwörter und der Elemente der repräsentativen Teilmenge, in hochdimensionalen Vektorraumeinbettungen basieren, wobei Wörter ähnlich sind, wenn sie einander im Vektorraum nahe sind.
Zusätzliche Ausführungsformen beziehen sich auf die Verwendung des Computer-implementierten Verfahrens zum Erzeugen von Datenbanken, insbesondere strukturierten Kenntnisdatenbanken, insbesondere Kenntnisgraphen, wobei das Verfahren gemäß den Ausführungsformen zum Extrahieren von Informationen angewandt wird, zum Beispiel Erzeugung der repräsentativen Teilmenge S, und die Informationen, zum Beispiel die repräsentative Teilmenge S, zur Erzeugung von Datenbanken, insbesondere strukturierten Kenntnisdatenbanken, insbesondere Kenntnisgraphen, verwendet werden.
Das Verfahren gemäß den Ausführungsformen kann auf RDF-Datensätze aus verschiedenen Domänen angewandt werden.

Claims

Computer-implementiertes Verfahren zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes (D), wobei der RDF-Datensatz (D) eine Menge von Tripeln umfasst, wobei der RDF-Datensatz (D) als ein ungerichteter Graph (KG) bereitgestellt wird, der Knoten (N) und Kanten (E) umfasst, wobei Knoten (N) Entitäten (e) repräsentieren und Kanten (e) Verknüpfungen zwischen Entitäten (e) repräsentieren; wobei das Verfahren die folgenden Schritte umfasst: Erzeugung - für jede Entität auf Instanzebene mindestens eines Entitätsbeschrei- bungsmusters (EDP), das mindestens ein Tripel umfasst, das mindestens eine Klasse und/oder mindestens eine Eigenschaft der Entität beschreibt, und - für jede Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mindestens eines Verknüpfungsbe schreibungsmusters (LP), das mindestens ein Tripel umfasst, das die Verknüpfung zwischen den zwei Entitäten auf Instanzebene beschreibt; Erzeugung eines Entitätsverknüpfungsgraphen (ELG) durch Umwandeln von Kanten des ungerichteten Graphen (KG) in Knoten, wobei alle Knoten, die dasselbe Entitätsbeschreibungsmuster (EDP) oder dasselbe Verknüpfungsbeschreibungsmuster (LP) umfassen, eine Gruppe bilden; Erzeugung eines Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG), der mindestens einen Knoten aus jeder Gruppe verbindet; Erzeugen eines erweiterten Subgraphen (eSG) durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen (SG), der eine Entitätsverknüpfung repräsentiert, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten, die er verknüpft, verbunden ist; Erzeugen einer repräsentativen Teilmenge (S) des RDF-Datensatzes aus dem erweiterten Subgraphen (eSG) durch Hinzufügung von Folgendem: - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entität (E) aus dem Entitätsbeschreibungsmuster (EDP) repräsentiert, mindestens eines Tripels, das eine Klasse der Entität beschreibt, und mindestens eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt, und - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entitätsverknüpfung repräsentiert, mindestens eines Tripels aus dem Verbindungsbeschreibungsmuster (LP).
Verfahren nach Anspruch 1, wobei das Verfahren ferner einen Schritt des Kennzeichnens jeder Entität auf Instanzebene mit ihrem Entitätsbeschreibungsmuster (EDP) und/oder des Kennzeichnens jeder Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mit ihrem Verknüpfungsbeschreibungsmuster (LP) umfasst.
Verfahren nach einem der Ansprüche 1 oder 2, wobei der Schritt des Umwandelns von Kanten des ungerichteten Graphen (D) in Knoten Unterteilung jeder Kante umfasst.
Verfahren nach einem der Ansprüche 1 oder 3, wobei Erzeugung eines Subgraphen des Entitätsverknüpfungsgraphen (ELG) auf Lösung eines Gruppen-Steiner-Baum-Problems basiert.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Vereinigung aller Entitätsbeschreibungsmuster (EDP) und aller Verknüpfungsbeschreibungsmuster (LP) als die Universalmenge für jede Komponente D_j des RDF-Datensatzes (D) betrachtet wird, EDP(D_j) u LP(D_j) ⊆ EDP(D) u LP(D) eine Menge ist und wobei das Verfahren einen Schritt des Findens der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist, umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren einen Schritt des Begrenzens des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG) auf der Basis einer Häufigkeit von Entitätsbeschreibungsmustern (EDP) und/oder auf der Basis einer Häufigkeit von Verknüpfungsbeschreibungsmustern (LP) umfasst, dergestalt, dass der Subgraph (SG) mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster (EDP) und/oder Verknüpfungsbeschreibungsmuster (LP) mit einer Häufigkeit über einer definierten Schwelle beziehen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren Empfangen einer Schlüsselwortanfrage (Q), Erzeugen eines Schlüsselwortmusters für jedes Schlüsselwort der Schlüsselwortanfrage und Hinzufügen einer Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit dem Schlüsselwort übereinstimmen, für jedes Schlüsselwortmuster beim Erzeugen des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG) umfasst.
Vorrichtung zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes (D), wobei der RDF-Datensatz (D) eine Menge von Tripeln umfasst, wobei der RDF-Datensatz (D) als ein ungerichteter Graph (KG) bereitgestellt wird, der Knoten (N) und Kanten (E) umfasst, wobei Knoten (N) Entitäten (E) repräsentieren und Kanten (E) Verknüpfungen zwischen Entitäten (E) repräsentieren; wobei die Vorrichtung mindestens einen Prozessor umfasst, wobei der Prozessor ausgelegt ist zur Erzeugung - für jede Entität auf Instanzebene mindestens eines Entitätsbeschreibungsmusters (EDP), das mindestens ein Tripel umfasst, das mindestens eine Klasse und/oder mindestens eine Eigenschaft der Entität beschreibt, und - für jede Kanten, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mindestens eines Verknüpfungsbeschreibungsmusters (LP), das mindestens ein Tripel umfasst, das die Verknüpfung zwischen den zwei Entitäten auf Instanzebene beschreibt; Erzeugung eines Entitätsverknüpfungsgraphen (ELG) durch Umwandeln von Kanten des ungerichteten Graphen (KG) in Knoten, wobei alle Knoten, die dasselbe Entitätsbeschreibungsmuster (EDP) oder dasselbe Verknüpfungsbeschreibungsmuster (LP) umfassen, eine Gruppe bilden; Erzeugung eines Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG), der mindestens einen Knoten aus jeder Gruppe verbindet; Erzeugen eines erweiterten Subgraphen (eSG) durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen (SG), der eine Entitätsverknüpfung repräsentiert, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten, die er verknüpft, verbunden ist; Erzeugen einer repräsentativen Teilmenge (S) des RDF-Datensatzes aus dem erweiterten Subgraphen (eSG) durch Hinzufügung von Folgendem: - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entität (E) aus dem Entitätsbeschreibungsmuster (EDP) repräsentiert, mindestens eines Tripels, das eine Klasse der Entität beschreibt, und mindestens eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt, und - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entitätsverknüpfung repräsentiert, mindestens eines Tripels aus dem Verbindungsbeschreibungsmuster (LP).
Vorrichtung nach Anspruch 8, wobei die Vorrichtung ausgelegt ist zum Kennzeichnen jeder Entität auf Instanzebene mit ihrem Entitätsbeschreibungsmuster (EDP) und/oder des Kennzeichnens jeder Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mit ihrem Verknüpfungsbeschreibungsmuster (LP) umfasst.
Vorrichtung nach einem der Ansprüche 8 oder 9, wobei, dass die Vorrichtung ausgelegt ist zum Umwandeln von Kanten des ungerichteten Graphen (D) in Knoten Unterteilung jeder Kante umfasst.
Vorrichtung nach einem der Ansprüche 8 bis 10, wobei die Vorrichtung ausgelegt ist zum Erzeugen eines Subgraphen des Entitätsverknüpfungsgraphen (ELG) auf der Basis des Lösens eines Gruppen-Steiner-Baum-Problems.
Vorrichtung nach einem der Ansprüche 8 bis 11, wobei die Vereinigung aller Entitätsbeschreibungsmuster (EDP) und aller Verknüpfungsbeschreibungsmuster (LP) als die Universalmenge für jede Komponente D_j des RDF-Datensatzes (D) betrachtet wird, EDP(D_j) u LP(D_j) ⊆ EDP(D) u LP(D) eine Menge ist und wobei das Verfahren einen Schritt des Findens der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist, umfasst.
Vorrichtung nach einem der Ansprüche 8 bis 12, wobei die Vorrichtung ausgelegt ist zum Begrenzen des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG) auf der Basis einer Häufigkeit von Entitätsbeschreibungsmustern (EDP) und/oder auf der Basis einer Häufigkeit von Verknüpfungsbeschreibungsmustern (LP) umfasst, dergestalt, dass der Subgraph (SG) mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster (EDP) und/oder Verknüpfungsbeschreibungsmuster (LP) mit einer Häufigkeit über einer definierten Schwelle beziehen.
Vorrichtung nach einem der Ansprüche 8 bis 13, wobei die Vorrichtung ausgelegt ist zum Empfangen einer Schlüsselwortanfrage (Q), Erzeugen eines Schlüsselwortmusters für jedes Schlüsselwort der Schlüsselwortanfrage und Hinzufügen einer Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit dem Schlüsselwort übereinstimmen, für jedes Schlüsselwortmuster beim Erzeugen des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG).
Computerprogramm zur automatischen Analyse von Schlüsselwörtern, das computerlesbare Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 7 ausführt.