DE112018005244T5 - Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen - Google Patents

Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen Download PDF

Info

Publication number
DE112018005244T5
DE112018005244T5 DE112018005244.3T DE112018005244T DE112018005244T5 DE 112018005244 T5 DE112018005244 T5 DE 112018005244T5 DE 112018005244 T DE112018005244 T DE 112018005244T DE 112018005244 T5 DE112018005244 T5 DE 112018005244T5
Authority
DE
Germany
Prior art keywords
nodes
new
knowledge graph
existing
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112018005244.3T
Other languages
English (en)
Inventor
Tim Uwe Scheideler
Stefan Ravizza
Andrea Giovannini
Avdyl Haxhaj
Simon Streit
Florian Graf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyndryl Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112018005244T5 publication Critical patent/DE112018005244T5/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Ein Computerprogrammprodukt, System und Verfahren zum Erzeugen eines Wissensgraphen kann ein Empfangen einer Mehrzahl von neuen Knoten, ein Empfangen eines Basis-Wissensgraphen mit durch bestehende Kanten selektiv verbundenen Knoten und ein Überlagern von ausgewählten der bestehenden Knoten des Basis-Wissensgraphen mit den neuen Knoten enthalten. Das Verfahren kann des Weiteren ein Verbinden der neuen Knoten, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei der neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird, sowie ein Abtrennen der neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen enthalten.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein System, Computerprogrammprodukt und Verfahren für ein Erzeugen eines Wissensgraphen und im Besonderen auf ein automatisches Erzeugen eines Wissensgraphen aus unstrukturierten Informationsentitäten.
  • HINTERGRUND
  • Die Verwaltung von Informationen stellt in der Wissensgesellschaft/Wissensindustrie eine Schlüsselaktivität dar. Die Informationen können strukturierte oder so genannte unstrukturierte Informationen sein und in elektronischen Speichersystemen verwaltet werden, die durch entsprechende Transaktions- oder Kooperationssysteme zugänglich sind, oder die Informationen können in einer nicht elektronischen Form neu erzeugt werden, z.B. handschriftlich oder gesprochen.
  • Unstrukturierte Informationsentitäten können in verschiedenartigen Kontexten erzeugt werden, z.B. in einer Arbeitssitzung, bei der Teilnehmer ausgehend von einer bestimmten gedanklichen Zielvorstellung Ideen sammeln und sich Notizen zu sämtlichen verschiedenen Aspekten machen, insbesondere im Rahmen von Design-Thinking-Arbeitssitzungen. Eine weitere Quelle von unstrukturierten Entitäten kann die agile Herangehensweise an die Projektverwaltung sein, insbesondere Software-Projekte unter Verwendung der SCRUM-Methodik mit vierwöchigen, als „Sprints“ bezeichneten Zyklen und täglichen, 15 Minuten dauernden Besprechungen sowie rückblickenden Sprint-Besprechungen, in denen sich alle Teilnehmer Notizen zu Ideen der Teilnehmer für Dinge, „die gut gelaufen sind“, „bei denen Verbesserungsbedarf bestanden hat“ sowie zu vielen anderen Aktionspunkten machen können. Andere Quellen von unstrukturierten Entitäten können Social-Media-Werkzeuge, Blogs, Vermerke aus Telefonkonferenzen und zugehörige Nachrichtenübertragungen usw. sein.
  • Ohne ein organisatorisches Rahmenwerk sind diese Notizen und andere handschriftliche Nachrichten allerdings einzelne, unzusammenhängende Informationsentitäten, was sich auch nach einer Vorverarbeitung der Eingabe nicht ändert (d.h. der Notizen, einem Scannen und einer Texterkennung für das erste der oben erwähnten Beispiele, einer Texterkennung für das letzte Beispiel). Vielmehr müssen die Benutzer mit einem Satz von unzusammenhängenden Informationselementen zurechtkommen, von denen ein jedes Inhalt (z.B. Textbeiträge des Teilnehmers) und Metadaten (z.B. Teilnehmer, Zeitmarke) enthält.
  • Ein häufiges Problem besteht darin, die Informationsentitäten so zu organisieren und vorzulegen, dass automatisch eine Zusammenfassung erzeugt und/oder eine Schlussfolgerung gezogen werden kann, was äußerst hilfreich für Teams wäre, damit ein gesamtes Team das Thema besser verstehen und sich auf greifbare Ergebnisse konzentrieren könnte.
  • Gegenwärtig wird eine manuelle Herangehensweise verfolgt, die in der Natur der Sache liegende Nachteile hat. Erstens ist es ermüdend, zeitaufwendig und vor allem aufwendig, alle Informationsentitäten in Gruppen einzuteilen. Zweitens kann die Auswahl von Kategorien für eine Gruppierung von der persönlichen Ansicht der Person(en) abhängen und somit in gewissem Umfang willkürlich sein. Nachdem Kategorien für einen Teilsatz von Entitäten ausgewählt wurden, ist eine Person womöglich nur ungern bereit, noch einmal von vorn zu beginnen, wenn die Kategorien für Entitäten eines weiteren Teilsatzes nicht passend sind.
  • Gegenwärtige Ansätze sind mehr oder weniger „isoliert“, was bedeutet, dass kein allgemeines Wissen herangezogen werden kann, um die unkoordinierten Informationsentitäten miteinander zu korrelieren. Aus diesem Grund kann ein Bedarf für ein Verfahren und ein System, das diese Beschränkung überwindet und insbesondere die nicht miteinander korrelierenden Informationselemente, d.h. die „Notizen“, so miteinander korreliert, dass sie einfacher zu verstehen sind.
  • In der Technik besteht somit ein Bedarf, das obige Problem zu lösen.
  • KU RZDARSTELLU NG
  • Unter einem ersten Aspekt betrachtet, stellt die vorliegende Erfindung ein durch einen Computer realisiertes Verfahren zum Erzeugen eines Wissensgraphen bereit, wobei das Verfahren aufweist: ein erstes Empfangen einer Mehrzahl von neuen Knoten durch einen Prozessor eines Datenverarbeitungssystems; ein zweites Empfangen eines Basis-Wissensgraphen, der durch bestehende Kanten selektiv verbundene Knoten aufweist, durch den Prozessor, wobei jede Kante der bestehenden Kanten eine bestehende Gewichtung hat; ein Überlagern von ausgewählten Knoten der bestehenden Knoten des Basis-Wissensgraphen mit der Mehrzahl von neuen Knoten durch den Prozessor, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden; ein Verbinden der Mehrzahl von neuen Knoten durch den Prozessor, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei Knoten aus der Mehrzahl von neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird; und ein Abtrennen der Mehrzahl von neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen durch den Prozessor.
  • Unter einem ersten Aspekt betrachtet, stellt die vorliegende Erfindung ein einen Prozessor aufweisendes System; eine mit dem Prozessor verbundene Arbeitsspeichereinheit; und eine mit dem Prozessor verbundene, durch einen Computer lesbare Speichereinheit bereit, wobei die Speichereinheit Programmcode enthält, der über die Arbeitsspeichereinheit durch den Prozessor ausführbar ist, um ein Verfahren zum Erzeugen eines Wissensgraphen zu realisieren, wobei das Verfahren aufweist: ein erstes Empfangen einer Mehrzahl von neuen Knoten durch einen Prozessor eines Datenverarbeitungssystems; ein zweites Empfangen eines Basis-Wissensgraphen, der durch bestehende Kanten selektiv verbundene Knoten aufweist, durch den Prozessor, wobei jede Kante der bestehenden Kanten eine bestehende Gewichtung hat; ein Überlagern von ausgewählten Knoten der bestehenden Knoten des Basis-Wissensgraphen mit der Mehrzahl von neuen Knoten durch den Prozessor, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden; ein Verbinden der Mehrzahl von neuen Knoten durch den Prozessor, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei Knoten aus der Mehrzahl von neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird; und ein Abtrennen der Mehrzahl von neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen durch den Prozessor.
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Erzeugen eines Wissensgraphen bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, das durch eine Verarbeitungsschaltung lesbar ist und Anweisungen zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren zum Durchführen der Schritte der Erfindung durchzuführen.
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem durch einen Computer lesbaren Medium gespeichert und in den internen Arbeitsspeicher eines digitalen Computers ladbar ist, das Software-Codeteile aufweist, um bei Ausführung des Programms auf einem Computer die Schritte der Erfindung durchzuführen.
  • Bereitgestellt werden ein Verfahren, System, Computerprogrammprodukt und Computerprogramm zum Erzeugen eines Wissensgraphen. Ein Prozessor eines Datenverarbeitungssystems empfängt eine Mehrzahl von neuen Knoten und einen Basis-Wissensgraphen, der durch bestehende Kanten selektiv verbundene Knoten aufweist, wobei jede Kante der bestehenden Kanten eine bestehende Gewichtung aufweist. Ausgewählte Knoten der bestehenden Knoten des Basis-Wissensgraphen werden mit der Mehrzahl von neuen Knoten überlagert, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden. Die Mehrzahl von neuen Knoten wird verbunden, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei Knoten aus der Mehrzahl von neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird. Die Mehrzahl von neuen Knoten wird mit den neuen Kanten aus dem Basis-Wissensgraphen als ein resultierender Wissensgraph abgetrennt.
  • Figurenliste
  • Mit Blick auf die beigefügten Zeichnungen werden nunmehr Ausführungsformen der Erfindung beschrieben, die lediglich beispielhaft zu verstehen sind und bei denen:
    • 1 einen Ablaufplan eines Verfahrens zum Erzeugen eines Wissensgraphen gemäß Ausführungsform der vorliegenden Erfindung beschreibt.
    • 2 einen Ablaufplan eines alternativen Verfahrens zu dem Verfahren aus 1 gemäß Ausführungsformen der vorliegenden Erfindung beschreibt.
    • 3 eine grafische Darstellung eines Basis-Wissensgraphen und zugehöriger inkohärenter Knoten gemäß Ausführungsformen der vorliegenden Erfindung ist.
    • 4 eine grafische Darstellung des Basis-Wissensgraphen mit den zugehörigen inkohärenten Knoten mit hinzugefügten Verknüpfungen/Kanten des resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung ist.
    • 5 eine grafische Darstellung des Basis-Wissensgraphen und des resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung ist, die außerdem Gewichtungen der Kanten zeigt.
    • 6 eine weitere grafische Darstellung des resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung zeigt.
    • 7 eine grafische Darstellung eines resultierenden Wissensgraphen mit Scores für die Knoten gemäß Ausführungsformen der vorliegenden Erfindung zeigt.
    • 8a eine erste grafische Darstellung von möglichen Kandidaten für Cluster-Zentren gemäß Ausführungsformen der vorliegenden Erfindung zeigt.
    • 8b eine zweite grafische Darstellung von möglichen Kandidaten für Cluster-Zentren gemäß Ausführungsformen der vorliegenden Erfindung zeigt.
    • 9 ein Blockschaubild eines Komponentenmodells eines Systems zum Erzeugen eines resultierenden Wissensgraphen gemäß Ausführungsform der vorliegenden Erfindung zeigt.
    • 10 ein Blockschaubild eines Datenverarbeitungssystems gemäß Ausführungsform der vorliegenden Erfindung zeigt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Gemäß einem Aspekt der vorliegenden Erfindung kann ein Verfahren zum Erzeugen eines Wissensgraphen bereitgestellt werden. Das Verfahren kann ein Empfangen einer Mehrzahl von neuen Knoten, ein Empfangen eines Basis-Wissensgraphen, der durch bestehende Kanten selektiv verbundene Knoten aufweist, wobei jede Kante der Kanten eine bestehende Gewichtung hat, sowie ein Überlagern von ausgewählten der bestehenden Knoten des Basis-Wissensgraphen mit den neuen Knoten aufweisen, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden.
  • Das Verfahren kann des Weiteren ein Verbinden der neuen Knoten, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei der neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird, sowie ein Abtrennen der neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen aufweisen.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung kann ein System zum Erzeugen eines Wissensgraphen bereitgestellt werden. Das System kann eine erste Empfangseinheit, die für ein Empfangen einer Mehrzahl von neuen Knoten ausgelegt ist, eine zweite Empfangseinheit, die für ein Empfangen eines Basis-Wissensgraphen ausgelegt ist, der durch bestehende Kanten selektiv verbundene Knoten aufweist, wobei jede Kante der Kanten eine bestehende Gewichtung hat, sowie ein Überlagerungsmodul aufweisen, das für ein Überlagern von ausgewählten der bestehenden Knoten des Basis-Wissensgraphen mit den neuen Knoten ausgelegt ist, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden.
  • Zusätzlich kann das System eine Verknüpfungsmaschine, die für ein Verbinden der neuen Knoten ausgelegt ist, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei der neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird, sowie eine Abtrennungseinheit aufweisen, die für ein Abtrennen der neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen ausgelegt ist.
  • Das vorgeschlagene Verfahren zum Erzeugen eines Wissensgraphen kann mehrere Vorteile und technische Wirkungen entfalten:
  • Eine beispielhafte Ausführungsform der vorliegenden Erfindung kann die Struktur eines bestehenden Wissensgraphen verwenden, um neue Informationsentitäten zu strukturieren. Die neuen Entitäten können als Knoten bezeichnet werden, die unter Umständen keiner Position innerhalb des Wissensgraphen zugewiesen wurden. Diese so genannten inkohärenten Knoten können unter Verwendung eines Inhaltsabgleich-Verfahrens mit Knoten des bestehenden Wissensgraphen in Beziehung gesetzt werden, um die zuvor inkohärenten Knoten mit Kanten (z.B. Wechselbeziehungen oder Verknüpfungen) in Beziehung zu setzen.
  • Indem die inkohärenten Knoten jedoch nicht integriert, sondern darüber gelegt werden, und indem auf Grundlage des Wissens in dem bestehenden Wissensgraph Kanten zwischen den inkohärenten Knoten hinzugefügt werden, bleibt der bestehende Wissensgraph unverändert (d.h. die inkohärenten Knoten werden nicht in den bestehenden Wissensgraphen integriert), und ausgerichtet an der Struktur des bestehenden Wissensgraphs kann ein neuer Wissensgraph erzeugt werden. Demgemäß kann das Sortieren, Strukturieren und die Organisation des neuen Wissensgraphen eine ausgeprägte Korrelation mit dem bestehenden Wissensgraphen aufweisen, hinsichtlich des Vorhandenseins des neuen Wissensgraphen jedoch vollständig unabhängig von dem bestehenden Wissensgraphen sein. Allerdings kann sich das Wissen und die Erfahrung, die in den bestehenden Wissensgraphen eingeflossen sind, auch in dem neu erzeugten Wissensgraphen widerspiegeln.
  • Somit können neue Informationsentitäten aus den verschiedenen Quellen, insbesondere aus Besprechungen zur Ideenfindung, Projektbesprechungen, persönlichen Vermerken, Beiträgen zu Blogs und Social-Media-Werkzeugen und dergleichen, mit dem inhärenten Wissen organisiert werden, das durch einen bestehenden Wissensgraphen repräsentiert wird, ohne jedoch von dem bestehenden Wissensgraphen abhängig zu sein. Der neue Wissensgraph kann lediglich die Informationsentitäten widerspiegeln, insbesondere die zuvor inkohärenten Knoten und Beziehungen (d.h. zwischen diesen Knoten wurden Kanten erzeugt). Der neue resultierende Wissensgraph kann auch frei von einem subjektiven Bias sein.
  • Im Folgenden werden zusätzliche Ausführungsformen der vorliegenden Erfindung beschrieben.
  • Gemäß einer bestimmten beispielhaften Ausführungsform des Verfahrens kann das Überlagern von Knoten ein Cognitive-Computing-Verfahren für ein Abbilden von Inhalt eines neuen Knotens auf Inhalt eines bestehenden Knotens des Basis-Wissensgraphen verwenden. Zum Bilden eines neuen Paares können somit die neuen Knoten verwendet werden, die hinsichtlich des Inhalts oder alternativ hinsichtlich der Absicht auf eine bestmögliche Weise in Beziehung zu einem bestehenden Knoten stehen. Auf diese Weise kann auch sichergestellt werden, dass keine zwei verschiedenen neuen Knoten auf denselben bestehenden Knoten abgebildet werden. Dabei ist ferner festzuhalten, dass die einfachste Art, einen neuen Knoten mit einem bestehenden Knoten abzugleichen, auf Grundlage eines Schlüsselworts erfolgen kann.
  • Gemäß einer beispielhaften Ausführungsform des Verfahrens kann jeder aus der Mehrzahl von neuen Knoten mindestens teilweise Inhalt in Textform aufweisen, der durch ein Scannen von eingetippten oder handschriftlichen Vermerken, eine Handschrifterkennung und -umwandlung, eine Sprache-zu-Text-Umwandlung oder ähnliche Methoden erhalten werden kann, um Teile der Informationsentitäten, die Quellen für neue Knoten bilden, für eine Verarbeitung durch eine kognitive Maschine verfügbar zu machen.
  • Gemäß einer beispielhaften Ausführungsform des Verfahrens kann eine Gewichtung einer neuen Kante zwischen zwei der neuen Knoten durch einen Zählwert von Kanten ermittelt werden, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden. Somit können auch neu erzeugte Kanten des zu erzeugenden Wissensgraphen über Gewichtungen verfügen. Es kann verschiedene Optionen für ein Zuweisen von Gewichtungen zu den neu erzeugten Kanten geben, die auch die Organisation des Basis-Wissensgraphen widerspiegeln können.
  • Gemäß einer weiteren beispielhaften Ausführungsform des Verfahrens kann somit eine Gewichtung einer neuen Kante zwischen zwei der neuen Knoten durch einen Kehrwert eines Zählwerts von Kanten ermittelt werden, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden.
  • Des Weiteren und gemäß einer weiteren beispielhaften Ausführungsform des Verfahrens kann eine Gewichtung einer neuen Kante zwischen zwei der neuen Knoten durch einen Kehrwert einer Summe von Gewichtungen von Kanten ermittelt werden, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden. Ein Fachmann kann in der Lage sein, zusätzliche Methoden zum Erzeugen von Gewichtungsfaktoren zu definieren (z.B. unter Verwendung von Kombinationen der oben erwähnten Methoden für eine Gewichtungszuweisung, indem ausgewählte mathematische Funktionen auf die bestehenden Gewichtungen der bestehenden Knoten angewendet werden, um einen neuen Gewichtungsfaktor für eine neue Kante abzuleiten).
  • Gemäß einer weiteren beispielhaften Ausführungsform kann das Verfahren außerdem ein Zuweisen eines Scores, insbesondere eines Score-Werts, zu einem neuen Knoten aufweisen. Auf diese Weise können den neuen Knoten in dem resultierenden Wissensgraphen verschiedene Wichtigkeitswerte zugewiesen werden. Die Score-Werte können zum Zwecke eines Clusterings der neuen Knoten verwendet werden.
  • Beim Zuweisen eines Werts, insbesondere von Gewichtungen, Scores und dergleichen, ist darauf hinzuweisen, dass aus Gründen der Einfachheit der Ausdruck „eine Gewichtung zuweisen“ bedeuten kann, dass ein numerischer Wert im Sinne eines Gewichtungsfaktors einer Kante usw. zugewiesen werden kann. Gleiches kann für einen Score und einen zugehörigen numerischen Score-Wert gelten.
  • Gemäß einer beispielhaften Ausführungsform des Verfahrens kann der Score, insbesondere der Score-Wert, als eine Summe der Gewichtungen der Kanten ermittelt werden, die mit dem neuen Knoten verbunden sind. Somit kann der Score-Wert des neuen Knotens umso höher sein, je mehr Kanten ein neuer Knoten besitzt. Gemäß einer weiteren beispielhaften Ausführungsform des Verfahrens kann der Score als ein Zählwert der Kanten ermittelt werden, mit dem neuen Knoten verbunden sind. Somit kann es mehrere verschiedene Versionen eines Erzeugens von Score-Werten für neue Knoten geben.
  • Gemäß einer zusätzlichen beispielhaften Ausführungsform kann das Verfahren außerdem ein Erzeugen eines Clusters, insbesondere mindestens eines Clusters, in dem resultierenden Wissensgraphen aufweisen. Auf diese Weise kann eine Mischung verschiedener Aspekte ein und desselben Themas in Gruppen eingeteilt werden, um eine einfachere und schnellere Zugänglichkeit zu erreichen. Für eine Suche nach Zentren der Cluster können verschiedene Alternativen verfügbar sein.
  • Gemäß einer weiteren beispielhaften Ausführungsform des Verfahrens kann ein Zentrum des Clusters der neue Knoten mit dem höchsten Zählwert von direkten Kanten zu anderen neuen Knoten sein, während gemäß einer weiteren beispielhaften Ausführungsform des Verfahrens ein Zentrum des Clusters der neue Knoten mit einem Knoten-Score über einem vordefinierten Schwellenwert sein kann. Der vordefinierte Schwellenwert kann als ein Synonym für eine Clip-Ebene verwendet werden. Es ist ferner anzumerken, dass auch weitere Methoden verwendet werden können, um einen neuen Knoten als ein Cluster-Zentrum zu definieren.
  • Infolgedessen und gemäß einer zusätzlichen beispielhaften Ausführungsform des Verfahrens kann ein Name für den Cluster mit einem Namen des Zentrums des Clusters identisch sein, wodurch sich ein Name des Clusters auf einfache Art und Weise definieren lassen kann. Auch umfassendere Herangehensweisen können verwendet werden.
  • Ausführungsformen können des Weiteren in Gestalt eines zugehörigen Computerprogrammprodukts vorliegen, auf das über ein durch einen Computer nutzbares oder durch einen Computer lesbares Medium zugegriffen werden kann, das Programmcode bereitstellt, der durch oder in Verbindung mit einem Computer oder einem beliebigen anderen System zur Anweisungsausführung verwendet werden kann. Zum Zwecke dieser Beschreibung kann ein durch einen Computer nutzbares oder durch einen Computer lesbares Medium jedwede Vorrichtung sein, die Mittel zum Speichern, Übertragen, Verbreiten oder Weitergeben des Programms für eine Verwendung durch oder in Verbindung mit dem System, der Vorrichtung oder Einheit zur Anweisungsausführung enthalten kann.
  • In Zusammenhang mit dieser Beschreibung können die folgenden Übereinkünfte, Begriffe und/oder Ausdrücke Anwendung finden:
    • Der Begriff „Wissensgraph“ kann eine Struktur innerhalb einer Gruppe von Informationsentitäten bezeichnen. Kernbausteine eines Wissensgraphen können Knoten, welche die Informationen aufweisen, sowie Kanten sein, die Verknüpfungen zwischen ausgewählten verschiedenen Knoten bilden. Die Kanten können Gewichtungen oder Gewichtungsfaktoren aufweisen, die einen Wert für eine Stärke einer Beziehung zwischen zwei Knoten definieren. Zusätzlich können die Knoten auch Scores oder Score-Werte aufweisen, die eine wie auch immer geartete Wichtigkeit des Inhalts der Knoten beschreiben.
  • Der Begriff „neuer Knoten“ kann in dem Kontext dieses Dokuments ein als eine Entität bezeichnetes Informationselement bezeichnen, das als einer der Bausteine eines neuen Wissensgraphen betrachtet werden soll. Der neue Knoten kann die Informationen mindestens teilweise in einer wie auch immer gearteten Art von Text aufweisen. Neue Knoten sind zunächst womöglich nicht über Kanten verknüpft. Die neuen Kanten können als Teil des Prozesses des Verfahrens erzeugt werden. Die neuen Knoten können im Kontext dieses Dokuments auch als inkohärente Knoten bezeichnet werden.
  • Der Begriff „Basis-Wissensgraph“ kann einen bestehenden Wissensgraphen bezeichnen, der bestehende Knoten und bestehende Kanten aufweist, wobei den bestehenden Kanten bestehende Gewichtungen zugewiesen sind. Der Basis-Wissensgraph kann in Bezug auf die Größe, insbesondere in Bezug auf die Anzahl bestehender Knoten und bestehender Kanten, sehr viel größer als der neu zu erzeugende Wissensgraph sein. Der Faktor kann zum Beispiel 100, 10.000 oder sogar 1.000.000 oder mehr betragen.
  • Der Begriff „Kante“ kann eine Verbindung oder Verknüpfung zwischen Knoten eines Wissensgraphen bezeichnen. Während sich Knoten üblicherweise als Kästchen, Kreise und/oder Ovale darstellen lassen, die darin eingeschlossenen Inhalt aufweisen, können Kanten üblicherweise als Linien zwischen den Knoten dargestellt werden. Einer Kante kann ein Gewichtungsfaktor zugewiesen werden, der die Stärke einer Wechselbeziehung zwischen dem Inhalt der zugehörigen Knoten ausdrückt.
  • Der Begriff „Gewichtung“ oder Gewichtungsfaktor kann einen numerischen Wert bezeichnen, der eine relative Stärke zum Beispiel einer Beziehung, einer Verknüpfung oder Kante zwischen zwei Knoten eines Wissensgraphen angibt.
  • Der Begriff „Überlagern“ kann ein logisches Platzieren eines neuen Knotens über einem bestehenden Knoten eines bestehenden Wissensgraphen bezeichnen. Auf diese Weise kann eine Mehrzahl von Paaren aus neuen Knoten und bestehenden Knoten erzeugt werden. Das Überlagern kann auf Grundlage einer Bedeutung der Informationen des Vermerks erfolgen (d.h. auf Grundlage des Inhalts, der Absicht oder eines Lemmas). Ein Lemma oder Stichwort, Schlüsselwort oder mitunter auch Schlagwort kann das Wort sein, unter dem ein Satz von zusammengehörigen Wörterbuch- oder Enzyklopädie-Einträgen auftreten kann.
  • Der Begriff „Cluster“ kann eine Gruppe von miteinander in Zusammenhang stehenden Elementen, in diesem Fall neuen Knoten, bezeichnen. Eine bestimmte Stärke oder Gewichtung von zusammengehörigen Kanten zwischen den neuen Knoten soll angenommen werden, um einen neuen Knoten zu einem gegebenen Cluster in Beziehung zu setzen. Die Cluster können über Zentren verfügen. Es kann verschiedene Verfahren geben, um die Zentren von Clustern zu definieren.
  • 1 beschreibt einen Ablaufplan eines Verfahrens 100 zum Erzeugen eines Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung. Das Verfahren kann Schritt 102 enthalten, der eine Mehrzahl von neuen Knoten empfängt. Schritt 104 empfängt einen Basis-Wissensgraph, der durch bestehende Kanten selektiv verbundene Knoten aufweist, wobei jede der Kanten eine bestehende Gewichtung und Überlagerung aufweist. Schritt 106 überlagert ausgewählte Knoten der bestehenden Knoten des Basis-Wissensgraphen mit den neuen Knoten, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden.
  • Zusätzlich kann das Verfahren 100 Schritt 108 enthalten, in dem die neuen Knoten verbunden werden, indem eine neue Kante mit einer neuen Gewichtung, insbesondere mit einem neuen Gewichtungswert, zwischen mindestens zwei der neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird. Schritt 110 trennt die neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen ab.
  • 2 beschreibt einen Ablaufplan eines alternativen Verfahrens 200 zu dem Verfahren 100 aus 1 gemäß Ausführungsformen der vorliegenden Erfindung. Zuerst führt Schritt 202 eine Vorverarbeitung der Entitäten wie z.B. ein Scannen durch, und/oder es wird eine Texterkennung durchgeführt, um inkohärente Knoten in einem vergleichbaren Format zu erzeugen. Diese Verfahren können für handschriftliche Ausgaben einer Arbeitssitzung durchgeführt werden. Auch Sprache-zu-Text-Umwandlungen und Spracherkennung können verwendet werden, um eine Diskussion zu verarbeiten und Informationsentitäten zu erzeugen. Als Nächstes ermittelt Schritt 204 den Inhalt oder die Absicht eines jeden der inkohärenten Knoten. Zu diesem Zweck können Cognitive-Computing-Algorithmen für eine Interpretation des Inhalts verwendet werden, in Kombination mit einem/einer oder mehreren bestehenden Wissensgraphen, Taxonomien und/oder Wörterbüchern, wobei dies durch bekannte Technologien durchgeführt werden kann.
  • Hierbei kann das Verfahren zwei alternative Herangehensweisen verwenden: Zuerst ermittelt Schritt 206 den Inhalt/die Absicht aller oder eines Teilsatzes der Knoten des Basis-Wissensgraphen, und Schritt 208 ermittelt eine beste Übereinstimmung (z.B. einen Fuzzy Match) der Absicht eines jeden inkohärenten Knotens mit der ermittelten Absicht von Knoten des Basis-Wissensgraphen. Da der Basis-Wissensgraph eine sehr viel größere Menge an Knoten aufweist als der Satz von inkohärenten Knoten, erfordert diese Verarbeitung im Vergleich zu den anderen Schritten des Verfahrens eine verhältnismäßig größere Menge an Datenverarbeitungszeit und Datenverarbeitungsleistung.
  • Alternativ ermittelt Schritt 210 eine beste Übereinstimmung (z.B. einen Fuzzy Match) des Inhalts/der Absicht eines jeden inkohärenten Knotens unter Verwendung von Namen, insbesondere von bestehenden Namen, von Knoten des Basis-Wissensgraphen.
  • Schritt 212 überlagert den Basis-Wissensgraphen gemäß der ausgewählten besten Übereinstimmung mit den inkohärenten Knoten. Danach erzeugt Schritt 214 Kanten zwischen den inkohärenten Knoten, indem die bestehende Verknüpfung des Basis-Wissensgraphen sowie Metadaten (z.B. Erzeugername, Zeit) der inkohärenten Knoten verwendet werden. Darüber hinaus identifiziert Schritt 216 Cluster, insbesondere mindestens einen Cluster, und eine Benennung der Cluster in dem neu erzeugten Wissensgraphen. Schritt 218 wandelt den resultierenden Wissensgraphen in eine Form um, die einem Nutzer vorgelegt werden kann (z.B. eine Umwandlung in eine grafisch anzeigbare Form).
  • 3 ist eine grafische Darstellung 300 eines Basis-Wissensgraphen und zugehöriger inkohärenter Knoten 304, 306, 308 gemäß Ausführungsformen der vorliegenden Erfindung. Die Kreise in der Figur und die Linien zwischen den Kreisen stehen für Knoten und Kanten des Basis-Wissensgraphen 302. Kreise, die größer als die Knoten des Basis-Wissensgraphen sind, können für die inkohärenten oder neuen Knoten 304, 306, 308 und 310 stehen. Das grafische Darüberlegen der Sechsecke über die Kreise des bestehenden Basis-Wissensgraphen 302 kann für das Überlagern der bis dahin unverknüpften, inkohärenten Knoten 304, 306, 308 und 310 mit bestehenden Knoten des Basis-Wissensgraphen 302 stehen.
  • 4 ist eine grafische Darstellung 400 des Basis-Wissensgraphen 302 mit den zugehörigen inkohärenten Knoten mit hinzugefügten Verknüpfungen/Kanten des resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung. Für jeden inkohärenten (d.h. in 4 als A, B, C, D gezeigten) Knoten wird den Kanten des zugrundeliegenden Basis-Wissensgraphen 302 so lange gefolgt, bis ein benachbarter inkohärenter Knoten erreicht wird. Zwei inkohärente Knoten, die über einen Pfad verbunden sind, der durch einen weiteren inkohärenten Knoten verläuft, können nicht miteinander verknüpft werden. Außerdem kann eine vorbestimmte Clip-Ebene (d.h. ein Schwellenwert) angewendet werden, zum Beispiel kann die Suche nach Verknüpfungen gespeichert werden, nachdem eine bestimmte Länge des Pfads (z.B. einer Anzahl von Kanten) oder nachdem eine bestimmte kumulative, inverse Gewichtung (z.B. einige der inversen Gewichtungen der Verknüpfungen des Pfads) erreicht wurde. Die Kanten zwischen den überlagernden, sechseckigen inkohärenten Knoten werden als fett dargestellte, doppelte Linien gezeigt. Für eine Clip-Ebene können vier Kanten des Basis-Wissensgraphen festgelegt werden.
  • Zusätzlich werden die Gewichtungen der Kanten in dem resultierenden Wissensgraphen als der Kehrwert der in dem Basis-Wissensgraphen enthaltenen Pfadstärke gezeigt oder - in diesem Beispiel - auf äquivalente Weise durch den Kehrwert der Summe der inversen Gewichtungen angegeben.
  • Wie in 4 gezeigt, ist A nicht mit D verknüpft, da die Pfadlänge 5 beträgt. B ist nicht mit D verknüpft, da es keinen Pfad zwischen B und D gibt, ohne einen weiteren inkohärenten Knoten zu kreuzen, unabhängig von der Pfadlänge der Clip-Ebene.
  • Falls mehrere Pfade mit inkohärenten Knoten verbunden sind, wird der kürzeste Pfad oder der Pfad mit der höchsten resultierenden Gewichtung genommen. Bei einer weiteren beispielhaften Ausführungsform kann die Summe der Gewichtungen verwendet werden, und danach werden alle Gewichtungen optional auf „1“ normalisiert. Bei einer weiteren Ausführungsform kann die Wurzel der Summe der quadrierten Gewichtungen gezogen werden, um den Pfad mit der höchsten Gewichtung hervorzuheben, und danach werden alle Gewichtungen unter Umständen auf „1“ normalisiert.
  • Bei einer weiteren beispielhaften Ausführungsform werden die Gewichtungen der Kanten des resultierenden Wissensgraphen durch die Metadaten der kohärenten Knoten beeinflusst. Wenn zwei Knoten zum Beispiel von demselben Verfasser stammen oder während einer Arbeitssitzung zur gleichen Zeit erstellt werden, wird die Gewichtung der Verknüpfung zwischen den beiden Knoten erhöht.
  • Bei einer weiteren beispielhaften Ausführungsform können zusätzliche Kanten mit einer vorbestimmten Gewichtung hinzugefügt werden, um denselben Verfasser anzugeben.
  • In einem nächsten Schritt des Verfahrens können Cluster von inkohärenten Knoten identifiziert werden, um die inkohärenten Knoten in Kategorien einzuordnen und für jede Kategorie einen Gegenstand oder ein Thema zu benennen. Zu diesem Zweck erhalten alle Knoten die Summe der Gewichtungen der Kanten als einen Score. Bei einer weiteren beispielhaften Ausführungsform erhalten die Knoten die Anzahl von Kanten als einen Score.
  • Bei einer beispielhaften Ausführungsform kann die Anzahl von Clustern begrenzt sein, z.B. auf die Anzahl n (d.h. nur die n Knoten mit den n höchsten Scores werden weiterhin berücksichtigt). Bei einer weiteren beispielhaften Ausführungsform werden alle Knoten unter einem vorbestimmten Mindest-Score nicht berücksichtigt. Bei einer weiteren beispielhaften Ausführungsform kann ein Mindestabstand zwischen den Cluster-Kernen notwendig sein (d.h. alle Knoten mit einem kleineren Score als benachbarte Knoten innerhalb eines bestimmten Radius werden nicht berücksichtigt). Bei einer weiteren beispielhaften Ausführungsform kann eine Kombination der oben erwähnten Kriterien verwendet werden. Bei einer weiteren beispielhaften Ausführungsform können mehrere Durchgänge der beschriebenen Herangehensweisen angewendet werden.
  • Eine genauere Betrachtung der soeben beschriebenen Herangehensweisen kann anhand der nächsten Figuren erfolgen.
  • 5 ist eine grafische Darstellung 500 des Basis-Wissensgraphen und des resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung, die außerdem Gewichtungen der Kanten zeigt. Aus Gründen der Einfachheit wird der Basis-Wissensgraph als ein regelmäßiges Gitter gezeigt, und alle Verknüpfungen weisen die Gewichtung „1“ auf. Die Gewichtung sollte in jedem Fall auf den Bereich zwischen „0“ und ,,1" normalisiert werden, so dass die Gewichtung eines Pfads als ein Produkt von Gewichtungen ausgedrückt werden kann (d.h. längere Pfade haben niedrigere Gewichtungen als kürzere Pfade).
  • Neun inkohärente Knoten, die als größere Kreise als die Knoten des bestehenden Wissensgraphen gezeigt werden, werden darüber gelegt.
  • Als Kantengewichtungen des resultierenden Wissensgraphen wird die Kante des Pfads des Basis-Wissensgraphen verwendet. Die Zahlen für die Gewichtungen werden rechts neben jeder Kante gezeigt. Die Kanten zwischen Knoten des resultierenden Wissensgraphen werden als fett dargestellte, gestrichelte Linien gezeigt.
  • 6 zeigt eine weitere grafische Darstellung 600 des resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung. 6 kann lediglich ein Auszug aus dem resultierenden Wissensgraphen aus 5 sein, mit den gleichen Gewichtungen für die Verknüpfungen.
  • 7 zeigt eine grafische Darstellung 700 eines resultierenden Wissensgraphen mit Scores für die Knoten gemäß Ausführungsformen der vorliegenden Erfindung. In einer ersten Iteration empfängt jeder Knoten die Summe der Kanten des Knotens als einen Score. In diesem Beispiel wird die Gewichtung der Verknüpfungen des Knotens auf einen Wert von 2,5 gesetzt, woraus sich drei mögliche Kandidaten und zwei Verbindungen zwischen diesen ergeben. Eine ist eine direkte Verknüpfung (d.h. mit einer Kantengewichtung von 1) und eine ist ein Pfad, der zwei Kanten mit einer Gesamtgewichtung von 0,25 = 0,5 x 0,5 aufweist, was daraufhin überprüft werden kann. Ein Beispiel: Der oberste Knoten verfügt über drei Verknüpfungen mit jeweiligen Gewichtungen von 0,5, 1, 0,3333333..., wofür eine Berechnung für die verbleibenden Knoten des resultierenden Wissensgraphen durchgeführt werden kann.
  • Aus dieser Herangehensweise ergeben sich drei mögliche Kandidaten und zwei zwischen ihnen befindliche Kanten. Eine ist eine direkte Kante (d.h. mit einer Gewichtung von 1) und eine ist ein Pfad, der zwei Verknüpfungen mit einer Gesamtgewichtung von 0,25 = 0,5 x 0,5 aufweist, wie in Bezug auf die nächsten Figuren dargelegt wird.
  • 8a zeigt eine erste grafische Darstellung 800 von möglichen Kandidaten für Cluster-Zentren gemäß Ausführungsformen der vorliegenden Erfindung. 8b zeigt eine zweite grafische Darstellung 800 von möglichen Kandidaten für Cluster-Zentren gemäß Ausführungsformen der vorliegenden Erfindung. Die 8a und 8b zeigen Ausführungsformen 800 der möglichen Kandidaten für Cluster-Zentren, da die Kandidaten den höchsten Score aller Knoten in dem resultierenden Wissensgraphen aufweisen.
  • In einer zweiten Iteration werden die Gewichtungen der Kanten, die verbleibende Knoten verbinden, zu dem Score der Knoten aus der ersten Iteration hinzugefügt. In diesem Beispiel wird der erforderliche Mindest-Score der zweiten Dauer auf einen Wert von 4 gesetzt, wodurch nur ein einziger Knoten als ein Cluster-Kern übrig bleibt (d.h. derjenige mit der Gewichtung von 4,25). Alternativ könnte der Mindestabstand zwischen Cluster-Kernen auf einen Wert von 2 gesetzt werden, wobei jedoch auch jede andere Zahl gewählt werden könnte, so dass sich zwei Cluster-Kerne ergeben, d.h. die Knoten mit den Gewichtungen von 4,25 und 2,75.
  • Ein Kategoriename und/oder die Absicht des Cluster-Kerns kann ausgewählt werden.
  • Bei einer beispielhaften Ausführungsform wird ein Cluster gebildet, indem Knoten dem nächstgelegenen Cluster-Kern zugewiesen werden. Bei einer weiteren beispielhaften Ausführungsform wird der Score des Cluster-Kerns als ein Faktor verwendet, zum Beispiel für ein Gravitationsmodell: Score dividiert durch das Quadrat des Abstands (z.B. gemessen als Anzahl von Kanten oder Sprüngen zwischen Knoten).
  • Als eine nicht iterative Herangehensweise wird bei einer weiteren beispielhaften Ausführungsform ein Kreis mit einem vorbestimmten Radius um jeden Knoten gelegt (d.h. ausgehend von dem Knoten wird so lange dem Pfad gefolgt, bis eine vorbestimmte Clip-Ebene oder ein vorbestimmter Schwellenwert der Summe der inversen Gewichtungen erreicht wird). Cluster-Kerne können Knoten mit der höchsten Anzahl von Knoten sein, die sich in dem jeweiligen Kreis befinden.
  • In einem nächsten Schritt des Verfahrens kann der resultierende Wissensgraph dann in eine grafisch anzeigbare Form umgewandelt und einem Benutzer vorgelegt werden. Die zuvor inkohärenten Knoten werden zu benannten Clustern angeordnet und entsprechend in Gruppen eingeteilt. Um die Verständlichkeit zu verbessern, kann eine Farbcodierung verwendet werden.
  • Indem die Leistungsmesser für die Ermittlung von Clustern (z.B. Anzahl von Clustern, für einen Cluster erforderlicher Mindest-Score, Mindestabstand zwischen Clustern, Anzahl von Iterationen) geändert werden, kann der Benutzer verschiedene Kategorisierungen erzeugen. Danach wird für einen zugehörigen Darstellungszweck eine bestimmte Kategorisierung ausgewählt.
  • 9 zeigt ein Blockschaubild eines Komponentenmodells 900 eines Systems zum Erzeugen eines resultierenden Wissensgraphen gemäß Ausführungsformen der vorliegenden Erfindung. Informationsentitäten 902 werden an eine Daten-Vorverarbeitungseinheit 904 geleitet, welche die inkohärenten Knoten 906 in einem standardisierten Format erzeugt, wie weiter oben erläutert wird. Hierfür und abhängig von dem Format der Entitäten kann die Vorverarbeitungseinheit 904 ein Scannen, eine optische Zeichenerkennung, eine Text-zu-Sprache-Umwandlung oder ähnliche Methoden verwenden. Eine als Absicht-Abbildungseinheit 908 bezeichnete Komponente erfasst die Absicht eines jeden inkohärenten Knotens. Bei einer beispielhaften Ausführungsform erfasst die Absicht-Abbildungseinheit 908 auch die Absicht aller oder eines Teilsatzes der Knoten des Basis-Wissensgraphen 910, so dass die Abgleichsmaschine 914 die Absicht der inkohärenten Knoten 906 mit der Absicht der Knoten des Basis-Wissensgraphen 910 abgleicht. Bei einer weiteren Ausführungsform gleicht die Abgleichsmaschine 914 die Absicht der inkohärenten Knoten 906 mit den Namen und/oder der Beschreibung und/oder dem Inhalt der Knoten des Basis-Wissensgraphen 910 ab, wie weiter oben in Zusammenhang mit dem zugehörigen Verfahren erörtert wird.
  • Die Verknüpfungsmaschine 916 folgt den Verknüpfungen des Basis-Wissensgraphen 910 von einem überlagernden, inkohärenten Knoten zu einem weiteren überlagernden, inkohärenten Knoten. Die Verknüpfungsmaschine 916 speichert den resultierenden Wissensgraphen 912 getrennt von dem Basis-Wissensgraphen 910. Auf diese Weise wird der resultierende Wissensgraph 912 eine von dem Basis-Wissensgraphen 910 unabhängige Struktur.
  • Die Clustering-Maschine 918 identifiziert die Scores der Cluster, wählt eine Namenszeichenfolge aus dem Knotennamen aus und weist dem Cluster umliegende Knoten des Clusters zu.
  • Das Präsentationsmodul 920 gibt anschließend einen oder mehrere, Graphiken darstellende Cluster, Knoten und Verknüpfungen des resultierenden Wissensgraphen 912 wieder. Die Benutzerschnittstelle 922 ermöglicht dem Benutzer, Leistungsmesser der Clustering-Algorithmen zu verändern, um verschiedene Ansichten des resultierenden Wissensgraphen 912 zu erzeugen. Der Benutzer kann unter Verwendung einer Benutzer-Datenverarbeitungseinheit mit dem resultierenden Wissensgraphen 912 interagieren, um den resultierenden Graphen zu verändern oder die Anzeige des resultierenden Graphen 912 zu verändern.
  • Ausführungsformen der Erfindung können auf nahezu jedem Computertyp gemeinsam realisiert sein, unabhängig davon, ob die Plattform für das Speichern und/oder Ausführen von Programmcode geeignet ist. 10 zeigt ein Blockschaubild eines Datenverarbeitungssystems gemäß Ausführungsform der vorliegenden Erfindung. Zum Beispiel zeigt 10 ein Datenverarbeitungssystem 1000, das zum Ausführen von Programmcode geeignet ist, der mit dem vorgeschlagenen Verfahren in Zusammenhang steht, und/oder als eine oder mehrere der Komponenten des Komponentenmodells gemäß 9 wirken kann.
  • Das Computersystem 1000 ist lediglich ein Beispiel für ein geeignetes Computersystem und nicht als eine wie auch immer geartete Beschränkung von Verwendungsumfang oder Funktionalität von Ausführungsformen der hier beschriebenen Erfindung gedacht. Unabhängig davon kann das Computersystem 1000 mit jeder beliebigen hier dargelegten Funktionalität realisiert sein und/oder diese durchführen. In dem Computersystem 1000 gibt es Komponenten, die mit zahlreichen anderen Universal- oder Spezial-Datenverarbeitungssystem-Umgebungen oder -Konfigurationen betrieben werden können. Ohne darauf beschränkt zu sein, sind Beispiele bekannter Datenverarbeitungssysteme, -umgebungen und/oder -konfigurationen, die für eine Verwendung mit einem Computersystem/Server 1000 geeignet sein können, Personal-Computersysteme, Server-Computersysteme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Mehrprozessorsysteme, Systeme auf Grundlage von Mikroprozessoren, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Mini-Computersysteme, Mainframe-Computersysteme sowie verteilte Cloud-Computing-Umgebungen, die irgendeine/s der obigen Systeme oder Einheiten enthalten, und dergleichen. Das Computersystem/der Server 1000 lässt sich im allgemeinen Zusammenhang von Anweisungen beschreiben, die durch ein Computersystem ausführbar sind, wie z.B. Programmmodule, die von einem Computersystem 1000 ausgeführt werden. Allgemein können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen usw. enthalten, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen realisieren. Das Computersystem/der Server 1000 kann in verteilten Cloud-Computing-Umgebungen eingesetzt werden, wo Aufgaben von entfernt angeordneten Verarbeitungseinheiten durchgeführt werden, die über ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl in lokalen als auch in entfernt angeordneten Computersystem-Speichermedien wie beispielsweise Arbeitsspeichereinheiten befinden.
  • Die Figur zeigt das Computersystem/den Server 1000 in Gestalt einer Universal-Datenverarbeitungseinheit. Die Komponenten des Computersystems/Servers 1000 können eine(n) oder mehrere Prozessoren oder Verarbeitungseinheiten 1002, einen Systemarbeitsspeicher 1004 und einen Bus 1006 enthalten, der verschiedene Systemkomponenten wie z.B. den Systemarbeitsspeicher 1004 mit dem Prozessor 1002 verbindet, ohne jedoch darauf beschränkt zu sein. Der Bus 1006 steht für mindestens eine von beliebigen mehreren Arten von Busstrukturen, z.B. ein Speicherbus oder ein Arbeitsspeicher-Controller, ein Peripheriebus, ein Accelerated Graphics Port (AGP) und ein Prozessor- oder lokaler Bus, wobei eine beliebige aus einer Vielfalt von Busarchitekturen verwendet werden kann. Beispielhaft und nicht als Beschränkung zu verstehen, enthalten derartige Architekturen einen ISA-Bus (Industry Standard Architecture), einen MCA-Bus (Micro Channel Architecture), einen EISA-Bus (Enhanced ISA), einen lokalen VESA-Bus (Video Electronics Standards Association) und einen PCI-Bus (Peripheral Component Interconnect). Das Computersystem/der Server 1000 enthält üblicherweise eine Vielfalt von Medien, die durch ein Computersystem lesbar sind. Solche Medien können beliebige verfügbaren Medien sein, auf die
  • das Computersystem/der Server 1000 zugreifen kann, und sowohl flüchtige als auch nicht flüchtige, entfernbare als auch nicht entfernbare Medien enthalten.
  • Der Systemarbeitsspeicher 1004 kann ein durch ein Computersystem lesbares Medium in Form eines flüchtigen Arbeitsspeichers wie z.B. eines Direktzugriffsspeichers (RAM) 1008 und/oder eines Cache-Arbeitsspeichers 1010 enthalten. Das Computersystem/der Server 1000 kann des Weiteren andere entfernbare/nicht entfernbare, flüchtige/nicht flüchtige Computersystem-Speichermedien enthalten. Nur um ein Beispiel zu geben, kann ein Speichersystem 1012 zum Lesen von und Schreiben auf ein nicht entfernbares, nicht flüchtiges magnetisches Medium bereitgestellt werden (das nicht gezeigt ist und üblicherweise als eine „Festplatte“ bezeichnet wird). Obwohl hier nicht abgebildet, können ein Magnetplattenlaufwerk zum Lesen von und Schreiben auf eine entfernbare, nicht flüchtige Magnetplatte (z.B. eine „Diskette“) sowie ein optisches Plattenlaufwerk zum Lesen von oder Schreiben auf eine entfernbare, nicht flüchtige optische Platte wie z.B. einen CD-ROM, einen DVD-ROM oder ein anderes optisches Medium bereitgestellt werden. In diesen Fällen kann jedes Laufwerk über eine oder mehrere Datenmedienschnittstellen mit dem Bus 1006 verbunden sein. Wie weiter unten ausführlicher dargestellt und beschrieben, kann der Arbeitsspeicher 1004 mindestens ein Programmprodukt mit einem Satz von (z.B. mindestens einem) Programmmodulen enthalten, die konfiguriert sind, um die Funktionen von Ausführungsformen der Erfindung durchzuführen.
  • Zum Beispiel und ohne als Beschränkung gedacht zu sein, kann ein Programm/Dienstprogramm mit einem Satz von (z.B. mindestens einem) Programmmodulen 1016 in dem Arbeitsspeicher 1004 gespeichert sein, ebenso wie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule und Programmdaten. Das Betriebssystem, das eine oder die mehreren Anwendungsprogramme, die anderen Programmmodule und die Programmdaten oder eine Kombination hiervon können jeweils eine Realisierung einer Netzwerkumgebung enthalten. Die Programmmodule 1016 führen im Allgemeinen die Funktionen und/oder Verfahrensweisen von Ausführungsformen der hier beschriebenen Erfindung aus.
  • Das Computersystem/der Server 1000 kann zudem mit einer oder mehreren externen Einheiten 1018 Daten austauschen, z.B. mit einer Tastatur, einer Zeigeeinheit, einer Anzeige 1020 usw.; mit einer oder mehreren Einheiten, die einem Benutzer gestatten, mit dem Computersystem/Server 1000 zu interagieren; und/oder mit beliebigen Einheiten (z.B. Netzwerkkarte, Modem usw.), die dem Computersystem/Server 1000 ermöglichen, mit einer oder mehreren anderen Datenübertragungseinheiten Daten auszutauschen. Eine derartige Datenübertragung kann über Eingabe/Ausgabe-Schnittstellen (E/A-Schnittstellen) 1014 erfolgen. Des Weiteren kann das Computersystem/der Server 1000 über einen Netzwerkadapter 1022 mit einem oder mehreren Netzwerken Daten austauschen, z.B. mit einem lokalen Netzwerk (Local Area Network, LAN), einem Weitverkehrsnetzwerk (Wide Area Network, WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet). Wie dargestellt, kann der Netzwerkadapter 1022 mit den anderen Komponenten des Computersystems/Servers 1000 über den Bus 1006 Daten austauschen. Dabei sollte klar sein, dass - obwohl sie hier nicht abgebildet sind - auch andere Hardware- und/oder Software-Komponenten in Verbindung mit dem Computersystem/Server 1000 verwendet werden könnten. Beispiele hierfür sind, ohne darauf beschränkt zu sein, Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerksstapel, RAID-Systeme, Bandlaufwerke und Datenarchivierungsspeichersysteme usw.
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Änderungen und Abwandlungen möglich sind, ohne vom inhaltlichen Umfang der beschriebenen Ausführungsformen abzuweichen. Die hier verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien zu erläutern bzw. anderen Fachleuten das Verständnis der hier offenbarten Ausführungsformen zu ermöglichen.
  • Die vorliegende Erfindung kann als ein System, ein Verfahren und/oder ein Computerprogrammprodukt enthalten sein. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Das Medium kann ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder ein Halbleitersystem für ein Verbreitungsmedium sein. Beispiele für ein durch einen Computer lesbares Medium können einen Halbleiter- oder Solid-State-Speicher, Magnetband, eine wechselbare Computerdiskette, einen Direktzugriffsspeicher (Random Access Memory, RAM), einen Nur-Lese-Speicher (Read-Only Memory, ROM), eine magnetische Festplatte und eine optische Platte enthalten. Gegenwärtige Beispiele für optische Platten enthalten einen Kompaktspeicherplatte-Nur-Lese-Speicher (Compact Disk Read Only Memory, CD-ROM), einen Kompaktspeicherplatte-Lese/Schreib-Speicher (Compact Disk Read/Write, CD-R/W) und Blu-Ray-Disk.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Anweisungsausführungseinheit enthalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein RAM, ein ROM, ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD (Digital Versatile Disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Lichtwellenleiterkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Nutzers, teilweise auf dem Computer des Nutzers als eigenständiges Software-Paket, teilweise auf dem Computer des Nutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA, Field Programmable Gate Arrays) oder programmierbare Logikanordnungen (PLA, Programmable Logic Arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine weitere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen durch einen Computer umgesetzten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer weiteren Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und/oder die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle - auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder den Schritt durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Bei einer Ausführungsform kann das System der vorliegenden Erfindung eine Hardware-Einheit wie z.B. einen Computer, eine tragbare Einheit usw. sein oder enthalten. Bei einer Ausführungsform ist oder enthält die Hardware-Einheit eine Spezial-Einheit (z.B. Computer, Maschine, tragbare Einheit), die eine spezialisierte, nicht allgemeine Hardware und Schaltung (d.h. eine spezialisierte, diskrete, nicht allgemeine Schaltung auf analoger, digitaler und Logik-Grundlage), die (unabhängig oder in Kombination) dafür vorgesehen ist, ausschließlich Verfahren der vorliegenden Erfindung auszuführen. Die spezialisierte, diskrete, nicht allgemeine Schaltung auf analoger, digitaler und Logik-Grundlage kann proprietäre, eigens entworfene Komponenten enthalten (z.B. eine spezialisierte integrierte Schaltung wie zum Beispiel eine anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC), die ausschließlich zum Realisieren von Verfahren der vorliegenden Erfindung entworfen wird).
  • Bei einer weiteren Ausführungsform löst die vorgeschlagene Erfindung ein technisches Problem, das in der Computertechnologie zwangsweise angelegt ist, da der resultierende Graph eine Suchmaschinentechnologie verbessern kann, was Computerressourcen spart, indem relevante Informationen an einer Stelle bereitgestellt werden, die dem Benutzer erlaubt, ein Navigieren zu einer zusätzlichen Website oder ein Durchführen einer zusätzliche Suche nach Informationen zu vermeiden.
  • Ein Computerprogrammprodukt der vorliegenden Erfindung kann eine oder mehrere durch einen Computer lesbare Hardware-Speichereinheiten mit darauf gespeichertem, durch einen Computer lesbarem Programmcode enthalten, wobei der Programmcode Anweisungen enthält, die durch einen oder mehrere Prozessoren eines Datenverarbeitungssystems (oder Computersystems) ausführbar sind, um die Verfahren der vorliegenden Erfindung zu realisieren.
  • Ein Computersystem der vorliegenden Erfindung kann einen oder mehrere Prozessoren, einen oder mehrere Arbeitsspeicher und eine oder mehrere durch einen Computer lesbare Hardware-Speichereinheiten enthalten, wobei die eine oder die mehreren Hardware-Speichereinheiten Programmcode enthalten, der durch den einen oder die mehreren Prozessoren über den einen oder die mehreren Arbeitsspeicher ausführbar ist, um die Verfahren der vorliegenden Erfindung zu realisieren.
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Änderungen und Abwandlungen möglich sind, ohne vom inhaltlichen Umfang der beschriebenen Ausführungsformen abzuweichen. Die hier verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien bestmöglich zu erläutern bzw. anderen Fachleuten das Verständnis der hier offenbarten Ausführungsformen zu ermöglichen.

Claims (26)

  1. Durch einen Computer realisiertes Verfahren zum Erzeugen eines Wissensgraphen, wobei das Verfahren aufweist: ein erstes Empfangen einer Mehrzahl von neuen Knoten durch einen Prozessor eines Datenverarbeitungssystems; ein zweites Empfangen eines Basis-Wissensgraphen, der durch bestehende Kanten selektiv verbundene Knoten aufweist, durch den Prozessor, wobei jede Kante der bestehenden Kanten eine bestehende Gewichtung hat; ein Überlagern von ausgewählten Knoten der bestehenden Knoten des Basis-Wissensgraphen mit der Mehrzahl von neuen Knoten durch den Prozessor, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden; ein Verbinden der Mehrzahl von neuen Knoten durch den Prozessor, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei Knoten aus der Mehrzahl von neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird; und ein Abtrennen der Mehrzahl von neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen durch den Prozessor.
  2. Verfahren nach Anspruch 1, wobei ein Überlagern ein Cognitive-Computing-Verfahren für ein Abbilden von Inhalt eines neuen Knotens auf Inhalt eines bestehenden Knotens des Basis-Wissensgraphen verwendet.
  3. Verfahren nach einem der beiden vorangegangenen Ansprüche, wobei jeder Knoten aus der Mehrzahl von neuen Knoten mindestens teilweise Inhalt in Textform aufweist.
  4. Verfahren nach einem beliebigen der vorangegangenen Ansprüche, wobei eine Gewichtung der neuen Kante zwischen zwei Knoten aus der Mehrzahl von neuen Knoten durch einen Zählwert von Kanten ermittelt wird, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden.
  5. Verfahren nach einem beliebigen der Ansprüche 1 bis 3, wobei eine Gewichtung der neuen Kante zwischen zwei Knoten aus der Mehrzahl von neuen Knoten durch einen Kehrwert eines Zählwerts von Kanten ermittelt wird, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden.
  6. Verfahren nach einem beliebigen der Ansprüche 1 bis 3, wobei eine Gewichtung der neuen Kante zwischen zwei Knoten aus der Mehrzahl von neuen Knoten durch einen Kehrwert einer Summe von Gewichtungen von Kanten ermittelt wird, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden.
  7. Verfahren nach einem beliebigen der vorangegangenen Ansprüche, des Weiteren aufweisend ein Zuweisen eines Scores zu dem neuen Knoten.
  8. Verfahren nach Anspruch 7, wobei der Score als eine Summe der Gewichtungen der Kanten ermittelt wird, die mit dem neuen Knoten verbunden sind.
  9. Verfahren nach Anspruch 7, wobei der Score als ein Zählwert der Kanten ermittelt wird, die mit dem neuen Knoten verbunden sind.
  10. Verfahren nach einem beliebigen der vorangegangenen Ansprüche, des Weiteren aufweisend ein Erzeugen eines Clusters in dem resultierenden Wissensgraphen.
  11. Verfahren nach Anspruch 10, wobei ein Zentrum des Clusters der neue Knoten mit einem höchsten Zählwert von direkten Kanten zu anderen neuen Knoten ist.
  12. Verfahren nach Anspruch 10, wobei ein Zentrum des Clusters der neue Knoten mit einem Knoten-Score über einem vordefinierten Schwellenwert ist.
  13. Verfahren nach einem beliebigen der Ansprüche 10 bis 12, wobei ein Name für den Cluster identisch mit einem Namen eines Zentrums des Clusters ist.
  14. System, aufweisend einen Prozessor; eine mit dem Prozessor verbundene Arbeitsspeichereinheit; und eine mit dem Prozessor verbundene, durch einen Computer lesbare Speichereinheit, wobei die Speichereinheit Programmcode enthält, der über die Arbeitsspeichereinheit durch den Prozessor ausführbar ist, um ein Verfahren zum Erzeugen eines Wissensgraphen zu realisieren, wobei das Verfahren aufweist: ein erstes Empfangen einer Mehrzahl von neuen Knoten durch einen Prozessor eines Datenverarbeitungssystems; ein zweites Empfangen eines Basis-Wissensgraphen, der durch bestehende Kanten selektiv verbundene Knoten aufweist, durch den Prozessor, wobei jede Kante der bestehenden Kanten eine bestehende Gewichtung hat; ein Überlagern von ausgewählten Knoten der bestehenden Knoten des Basis-Wissensgraphen mit der Mehrzahl von neuen Knoten durch den Prozessor, wodurch Paare aus neuen Knoten und entsprechenden bestehenden Knoten erzeugt werden; ein Verbinden der Mehrzahl von neuen Knoten durch den Prozessor, indem eine neue Kante mit einer neuen Gewichtung zwischen mindestens zwei Knoten aus der Mehrzahl von neuen Knoten erzeugt wird, wenn entsprechende bestehende Knoten in dem zugrundeliegenden Basis-Wissensgraphen eine Verbindung über null oder eine vorbestimmte maximale Anzahl von bestehenden Kanten haben, wobei die neue Gewichtung auf Grundlage der bestehenden Gewichtungen der bestehenden Kanten von Verbindungen zwischen den entsprechenden bestehenden Knoten ermittelt wird; und ein Abtrennen der Mehrzahl von neuen Knoten mit den neuen Kanten aus dem Basis-Wissensgraphen als einen resultierenden Wissensgraphen durch den Prozessor.
  15. System nach Anspruch 14, wobei das Überlagern ein Cognitive-Computing-System für ein Abbilden des Inhalts der Mehrzahl von neuen Knoten auf den Inhalt von Knoten des Basis-Wissensgraphen verwendet.
  16. System nach einem der Ansprüche 14 oder 15, wobei jeder aus der Mehrzahl von neuen Knoten mindestens teilweise Inhalt in Textform aufweist.
  17. System nach einem beliebigen der Ansprüche 14 bis 16, wobei eine Gewichtung einer neuen Kante zwischen zwei Knoten aus der Mehrzahl von neuen Knoten durch einen Zählwert von Kanten ermittelt wird, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden, oder wobei eine Gewichtung der neuen Kante zwischen zwei Knoten aus der Mehrzahl von neuen Knoten durch einen Kehrwert eines Zählwerts von Kanten ermittelt wird, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden, oder wobei eine Gewichtung der neuen Kante zwischen zwei Knoten aus der Mehrzahl von neuen Knoten durch einen Kehrwert einer Summe einer gewichteten Anzahl von Kanten ermittelt wird, die eine kürzeste Verbindung zwischen den beiden entsprechenden Knoten des bestehenden Wissensgraphen bilden.
  18. System nach einem beliebigen der Ansprüche 14 bis 17, des Weiteren aufweisend ein Zuweisen eines Scores zu dem neuen Knoten.
  19. System nach Anspruch 18, wobei der Score als eine Summe der Gewichtungen der Kanten ermittelt wird, die mit dem neuen Knoten verbunden sind.
  20. System nach Anspruch 18, wobei der Score als eine Summe der Kanten ermittelt wird, die mit dem neuen Knoten verbunden sind.
  21. System nach einem beliebigen der Ansprüche 14 bis 20, des Weiteren aufweisend ein Erzeugen eines Clusters in dem resultierenden Wissensgraphen.
  22. System nach Anspruch 21, wobei ein Zentrum des Clusters der neue Knoten mit einer höchsten Anzahl von direkten Kanten zu anderen neuen Knoten ist.
  23. System nach Anspruch 21, wobei ein Zentrum des Clusters der neue Knoten mit einem Knoten-Score über einem vordefinierten Schwellenwert ist.
  24. System nach einem beliebigen der Ansprüche 21 bis 23, wobei ein Name für den Cluster identisch mit einem Namen eines Zentrums des Clusters ist.
  25. Computerprogrammprodukt zum Erzeugen eines Wissensgraphen, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium, das von einer Verarbeitungsschaltung lesbar ist und Anweisungen zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem beliebigen der Ansprüche 1 bis 13 durchzuführen.
  26. Computerprogrammprodukt, das auf einem durch einen Computer lesbaren Medium gespeichert und in den internen Arbeitsspeicher eines digitalen Computers ladbar ist, welches Software-Codeteile aufweist, um bei Ausführung des Programms auf einem Computer das Verfahren nach einem beliebigen der Ansprüche 1 bis 13 durchzuführen.
DE112018005244.3T 2017-11-27 2018-11-23 Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen Ceased DE112018005244T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/822,653 2017-11-27
US15/822,653 US10740398B2 (en) 2017-11-27 2017-11-27 Structuring incoherent nodes by superimposing on a base knowledge graph
PCT/IB2018/059257 WO2019102411A1 (en) 2017-11-27 2018-11-23 Structuring incoherent nodes by superimposing on a base knowledge graph

Publications (1)

Publication Number Publication Date
DE112018005244T5 true DE112018005244T5 (de) 2020-07-02

Family

ID=66631426

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018005244.3T Ceased DE112018005244T5 (de) 2017-11-27 2018-11-23 Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen

Country Status (6)

Country Link
US (1) US10740398B2 (de)
JP (1) JP2021504818A (de)
CN (1) CN111386520A (de)
DE (1) DE112018005244T5 (de)
GB (1) GB2581761A (de)
WO (1) WO2019102411A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936657B2 (en) * 2018-08-31 2021-03-02 Netiq Corporation Affinity determination using graphs
US10970278B2 (en) 2019-03-29 2021-04-06 Microsoft Technology Licensing, Llc Querying knowledge graph with natural language input
US10867132B2 (en) 2019-03-29 2020-12-15 Microsoft Technology Licensing, Llc Ontology entity type detection from tokenized utterance
US10916237B2 (en) * 2019-03-29 2021-02-09 Microsoft Technology Licensing, Llc Training utterance generation
CN110491106B (zh) * 2019-07-22 2022-03-18 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
US11176137B2 (en) 2020-02-19 2021-11-16 Bank Of America Corporation Query processing platform for performing dynamic cluster compaction and expansion
US11714928B2 (en) * 2020-02-27 2023-08-01 Maxon Computer Gmbh Systems and methods for a self-adjusting node workspace
US11640540B2 (en) 2020-03-10 2023-05-02 International Business Machines Corporation Interpretable knowledge contextualization by re-weighting knowledge graphs
CN111984796B (zh) * 2020-07-31 2022-11-04 西安理工大学 一种基于规范知识图谱ifc模型的自动合规性检查方法
US20220365976A1 (en) * 2021-05-11 2022-11-17 Start.io Inc. Identifying Objects Based On Free-Form Text Description
US20230342629A1 (en) * 2022-04-26 2023-10-26 Microsoft Technology Licensing, Llc Exploring entities of interest over multiple data sources using knowledge graphs
CN114817575B (zh) * 2022-06-24 2022-09-02 国网浙江省电力有限公司信息通信分公司 基于扩展模型的大规模电力事理图谱处理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US9020947B2 (en) 2011-11-30 2015-04-28 Microsoft Technology Licensing, Llc Web knowledge extraction for search task simplification
US10482139B2 (en) 2013-11-05 2019-11-19 Google Llc Structured user graph to support querying and predictions
JP2015133047A (ja) 2014-01-15 2015-07-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9607098B2 (en) 2014-06-02 2017-03-28 Wal-Mart Stores, Inc. Determination of product attributes and values using a product entity graph
US10586156B2 (en) * 2015-06-25 2020-03-10 International Business Machines Corporation Knowledge canvassing using a knowledge graph and a question and answer system
US10664757B2 (en) 2015-09-16 2020-05-26 International Business Machines Corporation Cognitive operations based on empirically constructed knowledge graphs
JP6578897B2 (ja) 2015-11-10 2019-09-25 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10013404B2 (en) 2015-12-03 2018-07-03 International Business Machines Corporation Targeted story summarization using natural language processing
US10013450B2 (en) * 2015-12-03 2018-07-03 International Business Machines Corporation Using knowledge graphs to identify potential inconsistencies in works of authorship
US20170293698A1 (en) * 2016-04-12 2017-10-12 International Business Machines Corporation Exploring a topic for discussion through controlled navigation of a knowledge graph
US9721008B1 (en) * 2016-06-09 2017-08-01 International Business Machines Corporation Recipe generation utilizing natural language processing
US11176325B2 (en) * 2017-06-26 2021-11-16 International Business Machines Corporation Adaptive evaluation of meta-relationships in semantic graphs

Also Published As

Publication number Publication date
GB202009501D0 (en) 2020-08-05
GB2581761A (en) 2020-08-26
JP2021504818A (ja) 2021-02-15
CN111386520A (zh) 2020-07-07
US20190163835A1 (en) 2019-05-30
US10740398B2 (en) 2020-08-11
WO2019102411A1 (en) 2019-05-31

Similar Documents

Publication Publication Date Title
DE112018005244T5 (de) Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
DE102017122276A1 (de) Neuronale maschinenübersetzungssysteme
DE112021004197T5 (de) Semantisches Lernen in einem System für ein föderiertes Lernen
DE112016003335T5 (de) Prozessor für natürliche Sprache zum Bereitstellen von natürlichsprachlichen Signalen in einer natürlichsprachlichen Ausgabe
DE112020002042T5 (de) Erzeugen eines absichtserkennungsmodells auf grundlage von randomisierten absichtsvektornäherungen
DE112020005095T5 (de) Automatische trennung und extraktion von tabellendaten unter verwendung von maschinellem lernen
DE112019002235T5 (de) Einbinden eines wörterbuch-bearbeitungssystems in ein text mining
DE112021002867T5 (de) Defektdetektion für eine leiterplattenbaugruppe
DE202017107393U1 (de) Vorhersagen eines Suchmaschinen-Einordnungssignalwerts
DE112018005418T5 (de) Kognitive dokumentbild-digitalisierung
DE112021005052T5 (de) Iterative anwendung eines auf maschinellem lernen basierenden informationsextraktionsmodells auf dokumente mit unstrukturierten textdaten
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE112020002961T5 (de) Übersetzen einer abfrage in natürlicher sprache in eine formale datenabfrage
DE112020000545T5 (de) Deep-forest-modell-entwicklung und -training
DE112018001952T5 (de) Verbessertes visuelles dialogsystem für intelligente tutoren
DE112021000810T5 (de) Optisches erkennen von zellenstrukturen unter verwendung hierarchischer neuronaler netzwerke und zellengrenzen zum strukturieren von clustern
DE112020004925T5 (de) Aktualisieren und umsetzen eines dokuments aus einem audiovorgang
DE102021209171A1 (de) System zum wählen eines lernenden modells
DE102021124264A1 (de) Erzeugung von synthetischen Systemfehlern
DE112020003825T5 (de) Entsprechung zwischen externen Operationen und Containern sowie Mutationsereignissen
DE112021005230T5 (de) Erzeugen alternativer veränderlicher kennsätze
DE112021004234T5 (de) Einsetzen von metalernen zum optimieren der automatischen auswahl von pipelinesdes maschinellen lernens
DE112020005296T5 (de) Durchsuchen von gesprächsprotokollen eines systems mit virtuellen dialogagenten nach kontrastierenden zeitlichen mustern
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R081 Change of applicant/patentee

Owner name: KYNDRYL, INC., NEW YORK, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, NY, US

R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final