DE102021209612A1 - Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten - Google Patents

Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten Download PDF

Info

Publication number
DE102021209612A1
DE102021209612A1 DE102021209612.3A DE102021209612A DE102021209612A1 DE 102021209612 A1 DE102021209612 A1 DE 102021209612A1 DE 102021209612 A DE102021209612 A DE 102021209612A DE 102021209612 A1 DE102021209612 A1 DE 102021209612A1
Authority
DE
Germany
Prior art keywords
entity
link
subgraph
description
edp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021209612.3A
Other languages
English (en)
Inventor
Evgeny Kharlamov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021209612.3A priority Critical patent/DE102021209612A1/de
Priority to US17/892,996 priority patent/US20230061644A1/en
Priority to JP2022137605A priority patent/JP2023036039A/ja
Publication of DE102021209612A1 publication Critical patent/DE102021209612A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Es werden ein Computer-implementiertes Verfahren, eine Vorrichtung und ein Computerprogramm zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes (D) bereitgestellt, wobei der RDF-Datensatz (D) eine Menge von Tripeln umfasst, wobei der RDF-Datensatz (D) als ungerichteter Graph (KG) bereitgestellt wird, der Knoten (N) und Kanten (E) umfasst, wobei Knoten (N) Entitäten (e) und Kanten (e) Verknüpfungen zwischen Entitäten (e) repräsentieren.

Description

  • Hintergrund
  • Die Erfindung betrifft eine Vorrichtung, ein Computerprogramm und ein Computer-implementiertes Verfahren zur automatischen Analyse von Daten.
  • Ein Kenntnisgraph KG kann zur automatischen Analyse von Daten verwendet werden. Ein Ergebnis einer Analyse von Daten kann automatisch bestimmt werden.
  • Offenbarung
  • Die Vorrichtung, das Verfahren und das Computerprogramm gemäß den unabhängigen Ansprüchen verbessern die automatische Analyse weiter.
  • Die Offenbarung betrifft ein Computer-implementiertes Verfahren zur automatischen Analyse eines Datensatzes des RDF (Ressourcenbeschreibungsrahmens), wobei der RDF-Datensatz eine Menge von Tripeln umfasst, wobei der RDF-Datensatz als ein ungerichteter Graph (D) bereitgestellt wird, der Knoten und Kanten umfasst, wobei Knotenentitäten und Kantenverknüpfungen zwischen Entitäten repräsentieren. Das Verfahren umfasst die folgenden Schritte:
    • Erzeugung
      • - für jede Entität auf Instanzebene mindestens eines Entitätsbeschreibungsmusters, das mindestens ein Tripel umfasst, das mindestens eine Klasse und/oder mindestens eine Eigenschaft der Entität beschreibt, und
      • - für jede Kanten, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mindestens eines Verknüpfungsbeschreibungsmusters, das mindestens ein Tripel umfasst, das die Verknüpfung zwischen den zwei Entitäten auf Instanzebene beschreibt;
    • Erzeugung eines Entitätsverknüpfungsgraphen durch Umwandeln von Kanten des ungerichteten Graphen in Knoten, wobei alle Knoten, die dasselbe Entitätsbeschreibungsmuster oder dasselbe Verknüpfungsbeschreibungsmuster umfassen, eine Gruppe bilden;
    • Erzeugung eines Subgraphen des Entitätsverknüpfungsgraphen, der mindestens einen Knoten aus jeder Gruppe verbindet;
    • Erzeugen eines erweiterten Subgraphen durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen, der eine Entitätsverknüpfung repräsentiert, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten, die er verknüpft, verbunden ist;
    • Erzeugen einer repräsentativen Teilmenge des RDF-Datensatzes aus dem erweiterten Subgraphen durch Hinzufügung von Folgendem:
      • - für jeden Knoten in dem erweiterten Subgraphen, der eine Entität aus dem Entitätsbeschreibungsmuster repräsentiert, mindestens eines Tripels, das eine Klasse der Entität beschreibt,
      und mindestens eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt, und
      • - für jeden Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mindestens eines Tripels aus
      dem Verbindungsbeschreibungsmuster.
  • Die repräsentative Teilmenge des RDF-Datensatzes ist ein Musterabdeckungs-Snippet. Zur Wiederverwendung eines RDF-Datensatzes ist Verständnis seines Inhalts eine Voraussetzung. Um das Verständnis seiner großen und komplexen Struktur zu unterstützen, erzeugen existierende Verfahren hauptsächlich eine abgekürzte Version eines RDF-Datensatzes durch Extrahieren von repräsentativen Datenmustern als Kurzfassung. Als Komplement extrahieren neuere Versuche eine repräsentative Teilmenge konkreter Daten als ein Snippet.
  • Snippet und Kurzfassung stellen komplementäre Ansichten eines RDF-Datensatzes bereit: Snippets enthalten repräsentative Tripel auf Instanzebene und Kurzfassungen umfassen repräsentative Muster auf Schemaebene. Gemäß der vorliegenden Erfindung wird die Stärke einer Kurzfassung in ein Snippet injiziert, indem ein Musterabdeckungs-Snippet erzeugt wird, das die Muster von Entitätsbeschreibungen und Verknüpfungen in einem RDF-Datensatz am besten exemplifiziert.
  • Beim Erzeugen des Entitätsverknüpfungsgraphen durch Umwandeln von Kanten des ungerichteten Graphen in Knoten bilden vorzugsweise alle Knoten, die dasselbe Entitätsbeschreibungsmuster oder dasselbe Verknüpfungsbeschreibungsmuster umfassen, eine Gruppe.
  • Der Subgraph des Entitätsverknüpfungsgraphen wird vorzugsweise so erzeugt, dass der Subgraph mindestens einen Knoten aus jeder Gruppe verbindet.
  • Gemäß einer bevorzugten Ausführungsform umfasst beim Erzeugen einer repräsentativen Teilmenge des RDF aus dem erweiterten Subgraphen das Verfahren, für jeden Knoten in dem erweiterten Subgraphen, der eine Entität aus dem Entitätsbeschreibungsmuster repräsentiert, all die Tripel hinzuzufügen, die eine Klasse der Entität beschreiben, und nur ein Tripel, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt.
  • Ein RDF-Datensatz umfasst eine Menge von Tripeln, nämlich (Subjekt, Prädikat, Objekt)-Tripel. Subjekte oder Objekte solcher Tripel werden als Entitäten bezeichnet. Prädikate werden als Relationen bezeichnet. Die Menge von Tripeln kann naturgemäß als gerichteter Graph repräsentiert werden, dessen Knoten und Kanten gekennzeichnet sind. Elemente des RDF-Datensatzes und des Kenntnisgraphen können zwischen Elementen auf Instanzebene und Elementen auf Schemaebene unterschieden werden, wobei ein Schema eine formale Beschreibung des Elements ist und die Instanz die spezifische Information ist, die tatsächlich im Datensatz gespeichert ist.
  • Die Elemente auf Schemaebene in diesen Tripeln bilden das Entitätsbeschreibungsmuster (EDP) von e, bestehend aus Mengen von Klassen (C), Vorwärtseigenschaften (FP) und Rückwärtseigenschaften (BP): edp ( e ,D ) = < C ( e ,D ) , FP ( e ,D ) , BP ( e ,D ) > ,
    Figure DE102021209612A1_0001
    C ( e ,D ) = { c : < e ,  rdf : typ ,  c > D } ,
    Figure DE102021209612A1_0002
    FP ( e ,D ) = { p : < e ,  p ,  o > D } \ { rdf : typ } ,
    Figure DE102021209612A1_0003
    BP ( e ,D ) = { p : < s , p , e > D } .
    Figure DE102021209612A1_0004
  • Ein Tripel, bei dem das Objekt eine Entität ist, ist von besonderem Interesse, da es eine Verknüpfung zwischen zwei Entitäten repräsentiert. Das Prädikat und die EDP der zwei Entitäten in einem solchen Tripel <ei, p, ej> bilden das Verknüpfungsmuster (LP) dieses Tripels: lp ( < e i , p , e j ,  D ) = < epd ( e i ,D ) , p , edp ( e j ,D )
    Figure DE102021209612A1_0005
  • Gemäß einer bevorzugten Ausführungsform umfasst das Verfahren ferner einen Schritt des Kennzeichnens jeder Entität auf Instanzebene mit ihrem Entitätsbeschreibungsmuster und/oder des Kennzeichnens jeder Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mit ihrem Verknüpfungsbeschreibungsmuster.
  • Gemäß einer bevorzugten Ausführungsform umfasst der Schritt des Umwandelns von Kanten des ungerichteten Graphen in Knoten Unterteilen jeder Kante.
  • Gemäß einer bevorzugten Ausführungsform basiert Erzeugung eines Subgraphen des Entitätsverknüpfungsgraphen auf Lösung eines Gruppen-Steiner-Baum-Problems.
  • Um mit Diskonnektivität in einem Datensatz umzugehen, wird vorzugsweise die Vereinigung aller Entitätsbeschreibungsmuster und aller Verknüpfungsbeschreibungsmuster als die universelle Menge betrachtet, und für jede Komponente Dj des RDF-Datensatzes ist EDP(Dj) u LP(Dj) ⊆ EDP(D) u LP(D) eine Menge, wobei das Verfahren einen Schritt des Findens der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist, umfasst.
  • Vorzugsweise umfasst das Verfahren einen Schritt des Bestimmens der Häufigkeit der Entitätsbeschreibungsmuster und/oder der Häufigkeit der Verknüpfungsbeschreibungsmuster. Die Häufigkeit wird als das Aufkommen des Musters in dem RDF-Datensatz definiert.
  • Vorzugsweise umfasst das Verfahren einen Schritt des Einstufens der Entitätsbeschreibungsmuster und/oder der Verknüpfungsbeschreibungsmuster gemäß ihrer Häufigkeit, zum Beispiel auf der Basis absteigender Reihenfolge.
  • Gemäß einer bevorzugten Ausführungsform umfasst das Verfahren einen Schritt des Begrenzens des Subgraphen des Entitätsverknüpfungsgraphen auf der Basis der Häufigkeit von Entitätsbeschreibungsmustern und/oder auf der Basis der Häufigkeit von Verknüpfungsbeschreibungsmustern, dergestalt, dass der Subgraph mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster und/oder Verknüpfungsbeschreibungsmuster mit einer Häufigkeit über einer definierten Schwelle beziehen.
  • Weitere vorteilhafte Ausführungsformen sind aus der folgenden Beschreibung und der Zeichnung ableitbar. Es zeigen:
    • 1 einen beispielhaften Kenntnisgraphen,
    • 2 Aspekte eines Verfahrens zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes D;
    • 3 weitere Aspekte des Verfahrens zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes D;
    • 4 weitere Aspekte des Verfahrens zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes D;
    • 5 Aspekte der Evaluierung des Verfahrens in Bezug auf Raumersparnisse;
    • 6 Aspekte der Evaluierung des Verfahrens in Bezug auf kumulative Verteilungen von Raumersparnissen;
    • 7 Aspekte der Evaluierung des Verfahrens in Bezug auf kumulative Verteilungen von Snippet-Größen;
    • 8 Aspekte der Evaluierung des Verfahrens in Bezug auf eine Laufzeit und
    • 9 Aspekte der Evaluierung des Verfahrens in Bezug auf kumulative Verteilungen der Laufzeit.
  • 1 zeigt einen beispielhaften Kenntnisgraphen KG 100. Der Kenntnisgraph ist eine Präsentation von Daten eines RDF-Datensatzes D, der eine Menge von Tripeln, nämlich <Subjekt, Prädikat, Objekt>-Tripeln umfasst. Subjekte oder Objekte solcher Tripel werden als Entitäten bezeichnet. Prädikate werden als Relationen bezeichnet. Die Menge von Tripeln eines KG kann naturgemäß als gerichteter Graph repräsentiert werden, dessen Knoten und Kanten gekennzeichnet sind. Elemente des RDF-Datensatzes und des Kenntnisgraphen können zwischen Elementen auf Instanzebene und Elementen auf Schemaebene unterschieden werden, wobei ein Schema eine formale Beschreibung des Elements ist und die Instanz die tatsächlich in dem Datensatz gespeicherte spezifische Information ist.
  • Die Knoten N1.1, N1.2, N2, N3.1, N3.2, N4.1, N4.2, N4.3, N5.1, N5.2 und N5.3 des Kenntnisgraphen KG beziehen sich auf Entitäten auf Instanzebene, zum Beispiel:
    • N1.1: Deutschland, kurz DE
    • N1.2: Vereinigtes Königreich, kurz UK
    • N2: Europa,
    • N3.1: Berlin,
    • N3.2: London,
    • N4.1: München,
    • N4.2: Augsburg,
    • N4.3: Oxford,
    • N5.1: spezifische Zahl 1
    • N5.2: spezifische Zahl 2
    • N5.3: spezifische Zahl 3
  • Die Knoten N6 und N7 des Kenntnisgraphen KG beziehen sich auf Entitäten auf Schemaebene, zum Beispiel:
    • N6: Hauptstadt
    • N7: Stadt.
  • Die Kanten E1, E2, E3.1 und E3.2 des Kenntnisgraphen KG beziehen sich auf Relationen auf Instanzebene, zum Beispiel:
    • E1: Teil von
    • E2: Hauptstadt von
    • E3.1 befindlich in
    • E3.2 befindlich in.
  • Die Kanten E4 und E5 des Kenntnisgraphen KG beziehen sich auf Relationen auf Schemaebene, zum Beispiel:
    • E4: Typ
    • E5: Bereich
  • In den Tripeln des RDF-Datensatzes D wird eine Entität e auf Instanzebene durch eine Teilmenge von Tripeln beschrieben, wobei e das Subjekt oder das Objekt ist. Die Elemente auf Schemaebene in diesen Tripeln bilden das Entitätsbeschreibungsmuster (EDP) von e, bestehend aus Mengen von Klassen (C), Vorwärtseigenschaften (FP) und Rückwärtseigenschaften (BP): edp ( e ,D ) = < C ( e ,D ) , FP ( e ,D ) , BP ( e ,D ) > ,
    Figure DE102021209612A1_0006
    C ( e ,D ) = { c : < e ,  rdf : typ ,  c > D } ,
    Figure DE102021209612A1_0007
    FP ( e ,D ) = { p : < e ,  p ,  o > D } \ { rdf : typ } ,
    Figure DE102021209612A1_0008
    BP ( e ,D ) = { p : < s , p , e > D } .
    Figure DE102021209612A1_0009
  • Ein Tripel, bei dem das Objekt eine Entität ist, ist von besonderem Interesse, da es eine Verknüpfung zwischen zwei Entitäten repräsentiert. Das Prädikat und die EDP der zwei Entitäten in einem solchen Tripel <ei, p, ej> bilden das Verknüpfungsmuster (LP) dieses Tripels. lp ( < e i , p , e j ,  D ) = < epd ( e i ,D ) , p , edp ( e j ,D ) .
    Figure DE102021209612A1_0010
  • Nunmehr mit Bezug auf 1 können die folgenden beispielhaften Muster erhalten werden: edp ( Berlin ,  D ) = edp ( London , D ) = p1=< { Hauptstadt , Stadt } , { HauptstadtVon , befindlichln } , ø >
    Figure DE102021209612A1_0011
    epd ( DE , D ) = epd ( UK ,  D ) = p2 = ø , { TeilVon , Bereich } , { HauptstadtVon , befindlichln } >
    Figure DE102021209612A1_0012
    lp ( < Berlin , I befindlichln , DE> , D ) = lp ( < London , befindlichln , UK> , D ) = < p1 , befindlichln , p2> .
    Figure DE102021209612A1_0013
  • Die Menge aller EDP und die Menge aller LP in D, bezeichnet durch EDP(D) bzw. LP(D) werden durch Iterieren über alle Entitäten und Verknüpfungen in D erhalten.
  • Vorzugsweise kann jeder Knoten des KG in 1 mit seinem EDP gekennzeichnet werden, und jede Kante kann mit ihrem LP gekennzeichnet werden.
  • 2 repräsentiert eine Entitätsverknüpfungsgraph-Repräsentation ELG des RDF-Datensatzes D. Die ELG kann durch Umwandeln gekennzeichneter Kanten von KG in gekennzeichnete Knoten durch Unterteilen jeder Kante erhalten werden. Die Unterteilung wird als die Entitätsverknüpfungsgraph-Repräsentation des RDF-Datensatzes D bezeichnet. Der Entitätsverknüpfungsgraph ELG wird reduziert, um nur Elemente auf Instanzebene zu enthalten.
  • 3 repräsentiert einen erweiterten Subgraphen eSG des Entitätsverknüpfungsgraphen ELG. Der erweiterte Subgraph eSG wird folgendermaßen erzeugt:
    • Als Erstes wird ein Subgraph SG des Entitätsverknüpfungsgraphen ELG erzeugt, der mindestens einen Knoten aus jeder Gruppe verbindet. Der Subgraph SG wird auf der Basis der Lösung eines Gruppen-Steiner-Baum-Problems erzeugt. Das heißt im Wesentlichen Erzeugung des kleinsten verbundenen Subgraphen des Entitätsverknüpfungsgraphen ELG, dessen Knotenkennzeichnungen das Entitätsbeschreibungsmuster EDP und Verknüpfungsbeschreibungsmuster LP abdeckt. Gemäß einer Ausführungsform wird der Subgraph als eine ungewichtete Version des Gruppen-Steiner-Baum-Problems erzeugt: alle Knoten mit derselben Kennzeichnung bilden eine Gruppe. Lösung des Gruppen-Steiner-Baum-Problems erfordert Finden eines kleinsten Baums, der mindestens einen Knoten aus jeder Gruppe verbindet, und daher deckt er alle distinkten Kennzeichnungen ab. Das Gruppen-Steiner-Baum-Problem kann unter Verwendung eines auf dem neuesten Stand befindlichen Approximationsalgorithmus gelöst werden, zum Beispiel KeyKG+, offenbart in Shi, Y., Cheng, G., Kharlamov, E.: Keyword search over knowledge graphs via static and dynamic hub labellings. In: WWW 2020. S. 235-245 (2020).
  • Nunmehr mit Bezug auf 2 enthält der Subgraph die folgenden Knoten N1.1, N2, N3.1 und N41, die Entitäten repräsentieren, und die folgenden E1, E2, E3.2 und E3.2, die Verknüpfungen zwischen Entitäten repräsentieren.
  • Als Zweites wird der erweiterte Subgraph eSG durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen, der eine Entitätsverknüpfung repräsentiert, erzeugt, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten verbunden ist, die er verknüpft. Dies ist in 3 durch die gestrichelte Linie zwischen den Knoten E3.1 und N3.1 angegeben. Gemäß einer Ausführungsform wird für jedes Blatt in dem berechneten Subgraphen, das eine Entitätsverknüpfung repräsentiert, der Subgraph so erweitert, dass er beide Entitäten enthält, die es verknüpft.
  • Im Allgemeinen offenbart 4 eine repräsentative Teilmenge S des RDF-Datensatzes D, erzeugt aus dem erweiterten Subgraphen eSG.
  • Die repräsentative Teilmenge S ist ein Musterabdeckungs-Snippet S des RDF-Datensatzes D.
  • Gemäß dem Beispiel von 4 kann die repräsentative Teilmenge S folgendermaßen aus dem erweiterten Subgraphen eSG abgeleitet werden. Für jeden Knoten in dem erweiterten Subgraphen eSG, der eine Entität aus dem Entitätsbeschreibungsmuster repräsentiert, Hinzufügen aller Tripel, die eine Klasse der Entität beschreiben, und nur eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt. Ferner wird für jeden Knoten in dem erweiterten Subgraphen SG, der eine Entitätsverknüpfung repräsentiert, sein entsprechendes Tripel aus dem Verknüpfungsbeschreibungsmuster LP hinzugefügt.
  • Die mit Bezug auf 1 bis 4 beschriebenen Ausführungsformen basieren auf einer Annahme von Konnektivität des RDF-Datensatzes D. Mit Diskonnektivität des RDF-Datensatzes kann folgendermaßen umgegangen werden.
  • Diskonnektivität kann als eine Instanz des wohlbekannten Mengenabdeckungsproblems betrachtet werden, wobei die Vereinigung aller Entitätsbeschreibungsmuster EDP(D) und aller Verknüpfungsbeschreibungsmuster LP(D) als die universelle Menge betrachtet wird und für jede Komponente Dj des RDF-Datensatzes EDP(Dj) u LP(Dj) ⊆ EDP(D) u LP(D) eine Menge ist. Das Mengenabdeckungsproblem wird gelöst durch Finden der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist.
  • Das Lösen umfasst eine iterative Erzeugung einer repräsentativen Teilmenge S, bis die universelle Menge voll abgedeckt ist. Für jede Komponente Di, die die größte Anzahl unabgedeckter Muster enthält, wird wie zuvor beschrieben eine repräsentative Teilmenge S erzeugt.
  • Gemäß einer vorteilhaften Ausführungsform kann das Erzeugen der repräsentativen Teilmenge S modifiziert werden, um ein möglicherweise kleineres Sub-Snippet einer Komponente Di zu erzeugen. Das Sub-Snippet muss nur den Teil der Vereinigung der Entitätsbeschreibungsmuster EDP(Di) und der Beschreibungsmuster LP(Di) abdecken, der sich mit der universellen Menge schneidet, statt die vollständige Vereinigung EDP(Di) u LP(Di). Dadurch können beim Erzeugen des Subgraphen SG von ELG die Gruppen, die den Mustern in der Vereinigung EDP(Di) u LP(Di) ohne die universelle Menge entsprechen, ignoriert werden.
  • Dadurch kann die Kompaktheit der repräsentativen Teilmenge S und die Effizienz ihrer Erzeugung verbessert werden, indem darauf abgezielt wird, eine kleinste Teilmenge von Komponenten zu finden, die alle Muster in dem RDF-Datensatz D abdecken.
  • Falls der RDF-Datensatz D sehr heterogen ist und viele verschiedene Muster enthält, wird die repräsentative Teilmenge S unausweigerlich sehr groß sein. Die folgenden Schritte erzielen einen Kompromiss zwischen Musterabdeckung und Snippet-Größe zum Umgang mit hoher Heterogenität. Muster im RDF-Datensatz können nicht gleich wichtig sein. Die relative Häufigkeit eines Entitätsbeschreibungsmusters EDP wird als der Anteil von Entitäten definiert, von denen dieses Entitätsbeschreibungsmuster EDP im RDF-Datensatz ist. Die relative Häufigkeit eines Verknüpfungsbeschreibungsmusters LP wird analog definiert. Häufigere Muster können als wichtiger betrachtet werden. Die erzeugten Muster EDP, LP können in ihrer absteigenden Reihenfolge relativer Häufigkeit eingestuft werden.
  • Beim Erzeugen des Subgraphen SG des Entitätsverknüpfungsgraphen ELG kann der Subgraph SG auf der Basis einer Häufigkeit von Entitätsbeschreibungsmustern und/oder auf der Basis einer Häufigkeit von Verknüpfungsbeschreibungsmustern begrenzt werden, dergestalt, dass der Subgraph mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster und/oder Verknüpfungsbeschreibungsmuster mit einer Häufigkeit über einer definierten Schwelle beziehen. Die Schwelle beschreibt zum Beispiel einen Prozentsatz.
  • Auf dieser Basis ist die erzeugte repräsentative Teilmenge S ein möglicherweise kleineres Snippet, das nur die wichtigsten Muster im RDF-Datensatz D abdeckt.
  • Die folgende Ausführungsform bezieht sich auf Erzeugung einer repräsentativen Teilmenge S mit Anfrage-Bias.
  • Eine Schlüsselwortanfrage Q umfasst mindestens ein Schlüsselwort oder mehrere Schlüsselwörter. Jedes Schlüsselwort wird als ein Schlüsselwortmuster betrachtet. Jede Entität oder Entitätsverknüpfung im RDF-Datensatz D wird erweitert, um eine Menge von Mustern aufzuweisen, die aus ihrem Entitätsbeschreibungsmuster EDP oder Verknüpfungsbeschreibungsmuster LP und allen Schlüsselwortmustern, mit denen sie übereinstimmt, besteht. Die Berechnung kann durch einen herkömmlichen Abgleicher geschehen. Eine Entität e stimmt mit einem Schlüsselwort q ∈ Q überein, wenn q in jedem Tripel erscheint, das die Entität e (der RDF-Datensatz D) beschreibt. Eine Entitätsverknüpfung <ei, p, ej> stimmt mit einem Schlüsselwort q überein, wenn das Schlüsselwort q in der textlichen Form von p erscheint. Für jedes Schlüsselwortmuster eines Schlüsselworts q ∈ Q wird dementsprechend eine Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit Schlüsselwort q übereinstimmen, hinzugefügt. Beim Erzeugen des Subgraphen SG des Entitätsverknüpfungsgraphen ELG dergestalt, dass er mindestens einen Knoten aus jeder Gruppe verbindet, werden dadurch die Schlüsselwörter berücksichtigt, indem für jedes Schlüsselwort q die Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit dem jeweiligen Schlüsselwort q übereinstimmen, hinzugefügt wird.
  • Auf dieser Basis stimmt die erzeugte repräsentative Teilmenge S mit allen Schlüsselwörtern in q überein.
  • Stand der Technik: Cheng, G., Jin, C., Ding, W., Xu, D., Qu, Y.: Generating illustrative snippets for open data on the web. In: WSDM 2017. S. 151-159 (2017) offenbart auch ein Verfahren zur Erzeugung von Snippets mit der Bezeichnung IlluSnip. Um den Inhalt eines großen RDF-Datensatzes kompakt zu exemplifizieren, erzeugt IlluSnip ein Snippet durch Formulieren eines Verbundener-Graph-Problems mit Maximal-Gewicht- und -Abdeckung. Es versucht, eine optimale Teilmenge von K Tripeln, repräsentiert als ein verbundener RDF-Graph, der die häufigsten Klassen, Eigenschaften und die zentralsten Entitäten im RDF-Datensatz abdeckt, zu extrahieren. Anders als IlluSnip formuliert KSD, offenbart in Wang, X., Cheng, G., Kharlamov, E.: Towards multi-facet snippets for dataset search. In: PROFLILES & SemEx 2019. S. 1-6 (2019), ein gewichtetes-Maximum-Abdeckungsproblem, wobei es die Beschränkung bezüglich Konnektivität beseitigt. Sein Ziel der Optimierung versucht ferner, die meisten Schlüsselwörter in einer Schlüsselwortanfrage abzudecken, so dass es für RDF-Datensatz-Suchmaschinen geeignet ist. Verglichen mit IlluSnip und KSD versucht dieser Ansatz auch, Elemente auf Schemaebene abzudecken, wobei der Fokus auf Mustern von Entitätsbeschreibungen und Verknüpfungen liegt, die Kombinationen von Klassen und Eigenschaften sind. Muster können eine Vorschau „höherer Ordnung“ von Daten als getrennte Klassen und Eigenschaften bereitstellen.
  • Im Folgenden werden Raumersparnis und Laufzeit dieses Ansatzes mit IlluSnip und KSD verglichen. Dieser Ansatz wird als PSCG bezeichnet.
  • Die Raumersparnis eines Ansatzes an einem RDF-Datensatz ist definiert als: Raumersparnis = 1 Anzahl der Tripel in der erzeugten Snippet Anzahl von _ Tripeln im RDF Datensatz _   Anzahl der Tripel im RDF-Darensatz
    Figure DE102021209612A1_0014
  • Die Größe eines Snippet wird über die Anzahl der Tripel gemeldet. Ferner wird die Laufzeit jedes Ansatzes an einem RDF-Datensatz gemeldet.
  • Für die Evaluierung wurden Datensätze mit RDF-Dumps aus zwei Datenportalen abgerufen: DataHub.io und Data.gov, wobei Apache Jena 3.9.0 verwendet wurde, um 9544 RDF-Datensätze zu parsen. Es muss beachtet werden, dass viele Entitäten in Datensätzen aus Data.gov keinen Typ aufweisen und durch gleichförmige Muster, wahrscheinlich umgewandelt aus Tabellendaten, beschrieben werden.
  • Die Raumersparnis des PSCG-Ansatzes wurde an jedem der 9544 RDF-Datensätze berechnet. Die Ergebnisse sind in der Tabelle von 5 zusammengefasst. Der PSCG-Ansatz hat im Wesentlichen die Größe eines RDF-Datensatzes um durchschnittlich etwa 90% reduziert. Die Raumersparnisse von PCSG, PCSG-90% und PCSG-80% lagen über 95% an 57%, 69% bzw. 72% aller RDF-Datensätze, wie durch die kumulativen Verteilungen in 6 dargestellt. Die Median-Anzahlen von Tripeln in ihren erzeugten Snippets betrugen nur 41, 20 bzw. 17, wie durch die kumulativen Verteilungen in 7 dargestellt. Die Ergebnisse unterstützen die Kompaktheit der mit dem PSCG-Ansatz erzeugten Snippets.
  • Für jeden Ansatz wurde die Laufzeit an jedem der 9544 RDF-Datensätze aufgezeichnet. Die Ergebnisse sind in der in 8 abgebildeten Tabelle zusammengefasst. PCSG(-τ) war mehr als zwei Größenordnungen schneller als IlIuSnip. Die Laufzeit von PCSG, PCSG-90%, und PCSG-80% lag an 98%, 98% bzw. 99% aller RDF-Datensätze unter einer Sekunde, wie durch die kumulativen Verteilungen in 9 dargestellt. Die Ergebnisse unterstützen die Effizienz der Berechnung des PSCG-Ansatzes. Für mehrere stark heterogene Datensätze, die tausende EDP und LP enthalten, hat PCSG(-τ) jedoch mehr als eine Stunde gebraucht. Obwohl es immer noch schneller als IlluSnip und als Offline-Berechnung akzeptabel ist, suggeriert es Platz für weitere Verbesserung der Leistungsfähigkeit des PSCG-Ansatzes.
  • Das Verfahren wird vorzugsweise angewandt, wenn RDF-Datensätze mit einem neuronalen Netz verarbeitet werden. Der Datensatz umfasst zum Beispiel Daten aus dem Gebiet der Herstellung oder Produktion, zum Beispiel Informationen über Materialien und Substanzen und ihre Eigenschaften. Die RDF-Datensätze werden zum Beispiel in Bezug auf Automatisierung, Diagnostik und Optimierung verarbeitet. Die repräsentative Teilmenge S des RDF-Datensatzes kann für eine schnelle Schätzung oder Evaluierung des RDF-Datensatzes zuerst verarbeitet werden.
  • Weitere Ausführungsformen beziehen sich auf das computerimplementierte Verfahren zum Verarbeiten von RDF-Datensätzen, insbesondere mit neuronalen Netzen. Die Verwendung des Verfahrens bezieht sich auf automatisches Erzeugen der repräsentativen Teilmenge S des RDF-Datensatzes, um dadurch Informationen aus Textdaten zu extrahieren, zum Beispiel in Bezug auf Entitäten, insbesondere Personen, Orte, Organisationen usw. und/oder in Bezug auf Konzepte, insbesondere Proteine, Chemikalien, Materialien, Automatisierungsprozesse, Diagnostik und Optimierung.
  • Weitere Ausführungsformen beziehen sich auf die Verwendung des Computer-implementierten Verfahrens zum Verarbeiten einer Anzahl von RDF-Datensätzen (mindestens zwei RDF-Datensätze), insbesondere mit einem neuronalen Netz, mit den folgenden Schritten: Empfangen einer Schlüsselwortanfrage Q, Erzeugen einer repräsentativen Teilmenge S mit Anfrage-Bias der mindestens zwei RDF-Datensätze und Bestimmen einer Ähnlichkeit und/oder eines Ähnlichkeitsgrads zwischen der Schlüsselwortanfrage Q und jeder repräsentativen Teilmenge S mit Anfrage-Bias. Auf der Basis der Ähnlichkeit und/oder des Ähnlichkeitsgrads kann eine geeignete repräsentative Teilmenge und deshalb ein geeigneter RDF-Datensatz in Bezug auf die Schlüsselwortanfrage Q bestimmt werden. Die Bestimmung von Ähnlichkeit und/oder Ähnlichkeitsgrad kann zum Beispiel auf Vektoreinbettungen der Wörter, nämlich der Schlüsselwörter und der Elemente der repräsentativen Teilmenge, in hochdimensionalen Vektorraumeinbettungen basieren, wobei Wörter ähnlich sind, wenn sie einander im Vektorraum nahe sind.
  • Zusätzliche Ausführungsformen beziehen sich auf die Verwendung des Computer-implementierten Verfahrens zum Erzeugen von Datenbanken, insbesondere strukturierten Kenntnisdatenbanken, insbesondere Kenntnisgraphen, wobei das Verfahren gemäß den Ausführungsformen zum Extrahieren von Informationen angewandt wird, zum Beispiel Erzeugung der repräsentativen Teilmenge S, und die Informationen, zum Beispiel die repräsentative Teilmenge S, zur Erzeugung von Datenbanken, insbesondere strukturierten Kenntnisdatenbanken, insbesondere Kenntnisgraphen, verwendet werden.
  • Das Verfahren gemäß den Ausführungsformen kann auf RDF-Datensätze aus verschiedenen Domänen angewandt werden.

Claims (15)

  1. Computer-implementiertes Verfahren zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes (D), wobei der RDF-Datensatz (D) eine Menge von Tripeln umfasst, wobei der RDF-Datensatz (D) als ein ungerichteter Graph (KG) bereitgestellt wird, der Knoten (N) und Kanten (E) umfasst, wobei Knoten (N) Entitäten (e) repräsentieren und Kanten (e) Verknüpfungen zwischen Entitäten (e) repräsentieren; wobei das Verfahren die folgenden Schritte umfasst: Erzeugung - für jede Entität auf Instanzebene mindestens eines Entitätsbeschrei- bungsmusters (EDP), das mindestens ein Tripel umfasst, das mindestens eine Klasse und/oder mindestens eine Eigenschaft der Entität beschreibt, und - für jede Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mindestens eines Verknüpfungsbe schreibungsmusters (LP), das mindestens ein Tripel umfasst, das die Verknüpfung zwischen den zwei Entitäten auf Instanzebene beschreibt; Erzeugung eines Entitätsverknüpfungsgraphen (ELG) durch Umwandeln von Kanten des ungerichteten Graphen (KG) in Knoten, wobei alle Knoten, die dasselbe Entitätsbeschreibungsmuster (EDP) oder dasselbe Verknüpfungsbeschreibungsmuster (LP) umfassen, eine Gruppe bilden; Erzeugung eines Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG), der mindestens einen Knoten aus jeder Gruppe verbindet; Erzeugen eines erweiterten Subgraphen (eSG) durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen (SG), der eine Entitätsverknüpfung repräsentiert, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten, die er verknüpft, verbunden ist; Erzeugen einer repräsentativen Teilmenge (S) des RDF-Datensatzes aus dem erweiterten Subgraphen (eSG) durch Hinzufügung von Folgendem: - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entität (E) aus dem Entitätsbeschreibungsmuster (EDP) repräsentiert, mindestens eines Tripels, das eine Klasse der Entität beschreibt, und mindestens eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt, und - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entitätsverknüpfung repräsentiert, mindestens eines Tripels aus dem Verbindungsbeschreibungsmuster (LP).
  2. Verfahren nach Anspruch 1, wobei das Verfahren ferner einen Schritt des Kennzeichnens jeder Entität auf Instanzebene mit ihrem Entitätsbeschreibungsmuster (EDP) und/oder des Kennzeichnens jeder Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mit ihrem Verknüpfungsbeschreibungsmuster (LP) umfasst.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei der Schritt des Umwandelns von Kanten des ungerichteten Graphen (D) in Knoten Unterteilung jeder Kante umfasst.
  4. Verfahren nach einem der Ansprüche 1 oder 3, wobei Erzeugung eines Subgraphen des Entitätsverknüpfungsgraphen (ELG) auf Lösung eines Gruppen-Steiner-Baum-Problems basiert.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Vereinigung aller Entitätsbeschreibungsmuster (EDP) und aller Verknüpfungsbeschreibungsmuster (LP) als die Universalmenge für jede Komponente Dj des RDF-Datensatzes (D) betrachtet wird, EDP(Dj) u LP(Dj) ⊆ EDP(D) u LP(D) eine Menge ist und wobei das Verfahren einen Schritt des Findens der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist, umfasst.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren einen Schritt des Begrenzens des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG) auf der Basis einer Häufigkeit von Entitätsbeschreibungsmustern (EDP) und/oder auf der Basis einer Häufigkeit von Verknüpfungsbeschreibungsmustern (LP) umfasst, dergestalt, dass der Subgraph (SG) mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster (EDP) und/oder Verknüpfungsbeschreibungsmuster (LP) mit einer Häufigkeit über einer definierten Schwelle beziehen.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren Empfangen einer Schlüsselwortanfrage (Q), Erzeugen eines Schlüsselwortmusters für jedes Schlüsselwort der Schlüsselwortanfrage und Hinzufügen einer Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit dem Schlüsselwort übereinstimmen, für jedes Schlüsselwortmuster beim Erzeugen des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG) umfasst.
  8. Vorrichtung zur automatischen Analyse eines Ressourcenbeschreibungsrahmen- bzw. RDF-Datensatzes (D), wobei der RDF-Datensatz (D) eine Menge von Tripeln umfasst, wobei der RDF-Datensatz (D) als ein ungerichteter Graph (KG) bereitgestellt wird, der Knoten (N) und Kanten (E) umfasst, wobei Knoten (N) Entitäten (E) repräsentieren und Kanten (E) Verknüpfungen zwischen Entitäten (E) repräsentieren; wobei die Vorrichtung mindestens einen Prozessor umfasst, wobei der Prozessor ausgelegt ist zur Erzeugung - für jede Entität auf Instanzebene mindestens eines Entitätsbeschreibungsmusters (EDP), das mindestens ein Tripel umfasst, das mindestens eine Klasse und/oder mindestens eine Eigenschaft der Entität beschreibt, und - für jede Kanten, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mindestens eines Verknüpfungsbeschreibungsmusters (LP), das mindestens ein Tripel umfasst, das die Verknüpfung zwischen den zwei Entitäten auf Instanzebene beschreibt; Erzeugung eines Entitätsverknüpfungsgraphen (ELG) durch Umwandeln von Kanten des ungerichteten Graphen (KG) in Knoten, wobei alle Knoten, die dasselbe Entitätsbeschreibungsmuster (EDP) oder dasselbe Verknüpfungsbeschreibungsmuster (LP) umfassen, eine Gruppe bilden; Erzeugung eines Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG), der mindestens einen Knoten aus jeder Gruppe verbindet; Erzeugen eines erweiterten Subgraphen (eSG) durch Hinzufügen einer fehlenden Verknüpfung für jeden Knoten in dem Subgraphen (SG), der eine Entitätsverknüpfung repräsentiert, dergestalt, dass jeder Knoten in dem erweiterten Subgraphen, der eine Entitätsverknüpfung repräsentiert, mit beiden Entitäten, die er verknüpft, verbunden ist; Erzeugen einer repräsentativen Teilmenge (S) des RDF-Datensatzes aus dem erweiterten Subgraphen (eSG) durch Hinzufügung von Folgendem: - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entität (E) aus dem Entitätsbeschreibungsmuster (EDP) repräsentiert, mindestens eines Tripels, das eine Klasse der Entität beschreibt, und mindestens eines Tripels, das eine Eigenschaft der Entität für jede Eigenschaft des Entitätsbeschreibungsmusters beschreibt, und - für jeden Knoten in dem erweiterten Subgraphen (eSG), der eine Entitätsverknüpfung repräsentiert, mindestens eines Tripels aus dem Verbindungsbeschreibungsmuster (LP).
  9. Vorrichtung nach Anspruch 8, wobei die Vorrichtung ausgelegt ist zum Kennzeichnen jeder Entität auf Instanzebene mit ihrem Entitätsbeschreibungsmuster (EDP) und/oder des Kennzeichnens jeder Kante, die eine Entitätsverknüpfung zwischen zwei Entitäten auf Instanzebene repräsentiert, mit ihrem Verknüpfungsbeschreibungsmuster (LP) umfasst.
  10. Vorrichtung nach einem der Ansprüche 8 oder 9, wobei, dass die Vorrichtung ausgelegt ist zum Umwandeln von Kanten des ungerichteten Graphen (D) in Knoten Unterteilung jeder Kante umfasst.
  11. Vorrichtung nach einem der Ansprüche 8 bis 10, wobei die Vorrichtung ausgelegt ist zum Erzeugen eines Subgraphen des Entitätsverknüpfungsgraphen (ELG) auf der Basis des Lösens eines Gruppen-Steiner-Baum-Problems.
  12. Vorrichtung nach einem der Ansprüche 8 bis 11, wobei die Vereinigung aller Entitätsbeschreibungsmuster (EDP) und aller Verknüpfungsbeschreibungsmuster (LP) als die Universalmenge für jede Komponente Dj des RDF-Datensatzes (D) betrachtet wird, EDP(Dj) u LP(Dj) ⊆ EDP(D) u LP(D) eine Menge ist und wobei das Verfahren einen Schritt des Findens der kleinsten Anzahl von Mengen, deren Vereinigung gleich der universellen Menge ist, umfasst.
  13. Vorrichtung nach einem der Ansprüche 8 bis 12, wobei die Vorrichtung ausgelegt ist zum Begrenzen des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG) auf der Basis einer Häufigkeit von Entitätsbeschreibungsmustern (EDP) und/oder auf der Basis einer Häufigkeit von Verknüpfungsbeschreibungsmustern (LP) umfasst, dergestalt, dass der Subgraph (SG) mindestens einen Knoten aus jeder Gruppe verbindet, wobei sich die Gruppen auf Entitätsbeschreibungsmuster (EDP) und/oder Verknüpfungsbeschreibungsmuster (LP) mit einer Häufigkeit über einer definierten Schwelle beziehen.
  14. Vorrichtung nach einem der Ansprüche 8 bis 13, wobei die Vorrichtung ausgelegt ist zum Empfangen einer Schlüsselwortanfrage (Q), Erzeugen eines Schlüsselwortmusters für jedes Schlüsselwort der Schlüsselwortanfrage und Hinzufügen einer Gruppe, bestehend aus allen Entitäten und Entitätsverknüpfungen, die mit dem Schlüsselwort übereinstimmen, für jedes Schlüsselwortmuster beim Erzeugen des Subgraphen (SG) des Entitätsverknüpfungsgraphen (ELG).
  15. Computerprogramm zur automatischen Analyse von Schlüsselwörtern, das computerlesbare Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 7 ausführt.
DE102021209612.3A 2021-09-01 2021-09-01 Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten Pending DE102021209612A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102021209612.3A DE102021209612A1 (de) 2021-09-01 2021-09-01 Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten
US17/892,996 US20230061644A1 (en) 2021-09-01 2022-08-22 Apparatus, computer-implemented method and computer program for automatic analysis of data
JP2022137605A JP2023036039A (ja) 2021-09-01 2022-08-31 データの自動分析のための装置、コンピュータ実装された方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021209612.3A DE102021209612A1 (de) 2021-09-01 2021-09-01 Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten

Publications (1)

Publication Number Publication Date
DE102021209612A1 true DE102021209612A1 (de) 2023-03-02

Family

ID=85175139

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021209612.3A Pending DE102021209612A1 (de) 2021-09-01 2021-09-01 Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten

Country Status (3)

Country Link
US (1) US20230061644A1 (de)
JP (1) JP2023036039A (de)
DE (1) DE102021209612A1 (de)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805769B2 (en) * 2011-12-08 2014-08-12 Sap Ag Information validation
US9229930B2 (en) * 2012-08-27 2016-01-05 Oracle International Corporation Normalized ranking of semantic query search results
US8984019B2 (en) * 2012-11-20 2015-03-17 International Business Machines Corporation Scalable summarization of data graphs
JP2020140468A (ja) * 2019-02-28 2020-09-03 富士ゼロックス株式会社 情報処理装置及びプログラム
US11307541B2 (en) * 2019-09-06 2022-04-19 Intelligent Fusion Technology, Inc. Decision support method and apparatus for machinery control
US11574123B2 (en) * 2020-03-25 2023-02-07 Adobe Inc. Content analysis utilizing general knowledge base

Also Published As

Publication number Publication date
JP2023036039A (ja) 2023-03-13
US20230061644A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
DE112020002600T5 (de) Entdecken einer semantischen bedeutung von datenfeldern anhand von profildaten der datenfelder
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE112013006770B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
DE112012004331T5 (de) Verwenden der Stärke von Rückverfolgbarkeitsverknüpfungen zum Überwachen der Software-Entwicklungsintegrität
DE112020003909T5 (de) Verfahren zum multimodalen abrufen bzw. wiedergewinnen und clustern unter verwendung einer tiefen cca und aktiver paarweiser abfragen
DE102019107591A1 (de) Anzeigesystem, programm und speichermedium
DE112019005914T5 (de) Kategorisierung gewonnener daten basierend auf expliziten und impliziten mitteln
DE102021209171A1 (de) System zum wählen eines lernenden modells
DE102022201753A1 (de) Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung
DE10028624A1 (de) Verfahren und Vorrichtung zur Dokumentenbeschaffung
DE102021209612A1 (de) Vorrichtung, Computer-implementiertes Verfahren und Computerprogramm zur automatischen Analyse von Daten
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
AT522281B1 (de) Verfahren zur Charakterisierung des Betriebszustands eines Computersystems
DE102004028693A1 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE112019006005T5 (de) Semantische-Beziehungen-Lerneinrichtung, Semantische-Beziehungen-Lernverfahren und Semantische-Beziehungen-Lernprogramm
DE102014116117A1 (de) Verfahren und System zum Mining von Mustern in einem Datensatz
DE112020003024T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE102021203300A1 (de) Computerimplementiertes Verfahren für Schlüsselwortsuche in einem Wissensgraphen
DE102019219470A1 (de) System und verfahren für extraktion und abruf von informationen zur unterstützung bei automobilreparaturen
DE60309191T2 (de) System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen
DE202022106616U1 (de) Ein System zur Darstellung und Einordnung von Formeln für die Suche nach mathematischen Informationen
DE102009037848A1 (de) Verfahren zum rechnergestützten Verarbeiten von digitalen semantisch annotierten Informationen