-
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Komplettieren eines Wissensgraphen. Ebenso offenbart sind ein Computerprogramm, das, wenn es von einem Computer ausgeführt wird, den Computer veranlasst, das Verfahren zum Komplettieren eines Wissensgraphen auszuführen, und ein nicht flüchtiges, computerlesbares Medium, das das Computerprogramm umfasst.
-
In den letzten Jahren hat die Verwendung von Wissensgraphen zur Darstellung von Verhältnissen zwischen Dateneinträgen auf intuitiv verständliche Weise zugenommen. Wissensgraphen stellen im Wesentlichen mehrere Aussagen (die eine Wissensbasis bilden) in grafischer Form dar. In Wissensgraphen wird eine Sammlung von Einheiten und Prädikaten dargestellt, üblicherweise in Form einer mehrdimensionalen Darstellung. Die Einheiten können fast alles sein, zu Beispielen zählen Personen, Örtlichkeiten, physische Objekte, elektronische Dateien, abstrakte Konzepte und so weiter. Verhältnisse zwischen Einheiten (Prädikaten) können mit Hilfe von Verbindungen zwischen Einheiten veranschaulicht werden. Die relative Positionierung der Einheiten und Verbindungen auf dem Wissensgraphen kann auch zur Veranschaulichung von Verhältnissen zwischen verschiedenen Einheiten und Verbindungen verwendet werden.
-
Wissensgraphen (KGs) sind leistungsstarke Instrumente bei der Suche, Analyse, Generierung von Empfehlungen und Datenintegration. Es wurden KGs im großen Maßstab entwickelt und werden sowohl von Industrie als auch Akademien verwendet. Als solches ist es wünschenswert, exaktere und weniger arbeitsintensive Verfahren zur Komplettierung von Wissensgraphen bereitzustellen.
-
Die Prinzipien, die zur Bildung von Wissensgraphen verwendet werden, werden am besten anhand von Beispielen veranschaulicht. Anhand der anfänglichen Informationen „New York City (NYC) ist eine Stadt (STADT) im Staat New York (STAAT NEW YORK), der auch Albany (ALBANY) enthält“, können Verhältnisse extrahiert werden, die in einen Wissensgraphen eingegeben werden können. Diese Verhältnisse können in der Form <Einheit, Prädikat, Einheit> oder <Subjekt, Prädikat, Objekt> (auch als <s, p, o> bezeichnet, ausgedrückt werden. Die zweite dieser Formen kann eine Resource Description Framework (RDF)-Dreiergruppe sein, das heißt ein Prädikat und zwei miteinander verknüpfte Einheiten, die in einer Form bereitgestellt sind, die den Anforderungen des Resource Description Framework entspricht.
-
Aus den oben bereitgestellten Anfänglichen Informationen können drei Aussagen bezüglich Verhältnissen extrahiert werden. Ein Beispiel für eine extrahierbare Verhältnisaussage in der Form einer Dreiergruppe (im Speziellen einer RDF-Dreiergruppe) ist <NYC, ART VON, STADT>, das heißt die Einheit NYC ist die Art von Stadt. Die drei Verhältnisaussagen sind in folgender Tabelle 1 in der Form von Dreiergruppen dargestellt.
-
Tabelle 1
Subjekt | Prädikat | Objekt |
NYC | ART VON | STADT |
NYC | TEIL VON | STAAT NEW YORK |
STAAT NEW YORK | HAT TEIL | ALBANY |
-
Wie oben erwähnt, kann jede gegebene Einheit das Subjekt oder Objekt einer RDF-Dreiergruppe sein, während die Prädikate einen separaten Satz bilden. Die Daten, die zum Komplettieren eines Wissensgraphen verwendet werden (enthaltend, ohne aber darauf beschränkt zu sein, einen Graphen, der den RDF-Anforderungen entsprechend gebildet ist), können im Sinne der Sätze von Einheiten und Prädikaten beschrieben werden. Aus den in Tabelle 1 beschriebenen Daten kann ein Satz E der Einheiten und ein Satz R der Prädikate (Verhältnisse zwischen Einheiten) gebildet werden. Die Bildung von Sätzen E und R ist unten in Gleichung 1 dargestellt.
-
Unter Verwendung der Sätze E und R, wie in Gleichung 1 dargestellt, kann ein weiterer Satz S definiert werden, wobei S der Satz ist, der alle möglichen <Einheit, Prädikat, Einheit> oder <Subjekt, Prädikat, Objekt> Aussagen umfasst, die mit den Daten in Sätzen E und R gebildet werden können. S ist daher wie in der folgenden Gleichung 2 gezeigt, definiert.
-
Aus einem Vergleich zwischen Satz S und den anfänglichen Informationen, aus welchen die Verhältnisse in Tabelle 1 abgeleitet wurden, geht klar hervor, dass die anfänglichen Informationen keine direkte Ableitung aller möglichen Aussagen in Satz S zulassen. Ein Beispiel einer Aussage, die nicht aus den anfänglichen Informationen verifiziert werden kann, ist der Typ von Albany. Die anfänglichen Informationen geben an, dass NYC eine Stadt ist, die im Staat New York liegt, und dass Albany auch im Staat New York liegt. Die anfänglichen Informationen enthalten jedoch nicht, ob Albany eine Stadt ist oder nicht. Das heißt, es gibt keine anfänglichen Informationen über den Wahrheitsgehalt der Aussage <ALBANY, ART VON, STADT>.
-
In einem Wissensgraphen, der unter Verwendung der Annahme einer geschlossenen Welt konstruiert wird, würde die fehlende Information, ob Albany eine Stadt ist oder nicht, dahingehend interpretiert werden, dass das Verhältnis nicht korrekt ist, dass <ALBANY, ART VON, STADT> falsch ist. Diese Annahme wäre eher gültig, wäre der Satz anfänglicher Informationen komplett. Der Großteil der Wissensgraphen wird jedoch aus Datensätzen generiert, von welchen bekannt ist oder angenommen wird, dass sie unvollständig sind, und daher ist es angemessener, die Annahme einer offenen Welt zu verwenden.
-
Unter der Annahme einer offenen Welt wird die fehlende Information, ob Albany eine Stadt ist oder nicht, nicht dahingehend interpretiert, dass das Verhältnis korrekt ist. Es ist vielmehr unbekannt, ob Albany eine Stadt ist oder nicht. Das heißt, die Gültigkeit <ALBANY, ART VON, STADT> ist unbekannt. Die Annahme einer offenen Welt ist typischerweise eine realistischere Anforderung für Echtwelt-Datensätze und die Resource Description Framework-Anforderungen spezifizieren die Verwendung der Annahme einer offenen Welt. Die Verwendung der Annahme einer offenen Welt bedeutet jedoch, dass die Gültigkeit einiger der Aussagen im Satz S wahrscheinlich unbekannt ist.
-
Die gültigen Aussagen aus dem Satz S können mit Hilfe eines markierten gerichteten Multi-Graphen dargestellt werden, wobei jede Aussage als ein Rand dargestellt ist, der zwei Knoten verbindet, die die Einheiten darstellen. Damit fehlende Ränder hinzugefügt werden können (die Aussagen aus dem Satz S darstellen, deren Gültigkeit nicht bekannt ist), ist es nützlich, die Verhältnisse zwischen Prädikaten zu berücksichtigen. Auf diese Weise können Aussagen, deren Gültigkeit nicht bekannt ist, in den markierten gerichteten Multi-Graphen aufgenommen werden, wenn die Gültigkeit der Aussagen durch Analyse der Aussagen abgeleitet werden kann, die direkt in den anfänglichen Informationen unterstützt werden.
-
Eine Technik zur Konstruktion von Wissensgraphen ist die Abbildung der Aussagen S auf Vektoren im mehrdimensionalen Vektorraum. Zusätzlich zur Bereitstellung einer nützlichen Darstellung möglicher großer Anzahlen von Aussagen erlaubt dieser Mechanismus eine Anzeige von Verhältnissen zwischen verschiedenen Aussagen, falls solche Verhältnisse bekannt sind. Beispiele für die Arten von Verhältnissen, die angezeigt werden können, enthalten Äquivalenzverhältnisse und inverse Verhältnisse, die beide in der Folge unter Bezugnahme auf Beispiele von Verhältnissen zwischen Menschen beschrieben sind.
-
Ein Beispiel für Äquivalenzverhältnisse besteht aus einem Paar von Verhältnissen (Prädikaten) Arbeitet Mit und Kollege Von: angesichts einer RDF-Dreiergruppe <s, Arbeitet Mit, o> ist die Dreiergruppe <s, Kollege Von, o> auch sehr wahrscheinlich wahr, da die zwei Verhältnisse dieselbe (oder eine sehr ähnlich Bedeutung) haben. Dasselbe gilt zum Beispiel für den Fall Verheiratet Mit oder Partner Von: obwohl nicht äquivalent, haben sie ähnliche Bedeutungen und falls <s, Verheiratet Mit, o> wahr ist, ist höchstwahrscheinlich auch <s, Partner Von, o> wahr. Obwohl <s, Partner Von, o> mit größerer Wahrscheinlichkeit in dieser Situation auch wahr ist, ist die Wahrscheinlichkeit einer Gültigkeit nicht so hoch, wie wenn die zwei Prädikate exakte Äquivalente voneinander sind.
-
Ein Beispiel für inverse Verhältnisse besteht in dem Paar von Verhältnissen (Prädikaten) Hat Als Teil oder Teil Von: angesichts einer RDF-Dreiergruppe <s, Hat Als Teil, o> ist die Dreiergruppe <o, Teil Von, s> auch mit hoher Wahrscheinlichkeit war, da die zwei Verhältnisse Inverse voneinander sind.
-
Die Verhältnisse zwischen Prädikaten (Äquivalenz, Inverses, wie eng verwandt, usw.) sind gemeinsam als Schemawissen bekannt. Das Schemawissen ist im Allgemeinen nicht auf bestimmte Aussagen beschränkt, da die Verhältnisse zwischen den Prädikaten im Allgemeinen nicht von den Einheiten abhängig sind, die mit den Prädikaten verknüpft sind. Zum Beispiel gilt das inverse Verhältnisse zwischen den Prädikaten Teil Von und Hat Als Teil gleichermaßen, unabhängig ob die verwandten Einheitspaare eine Orange und eine Orangenspalte oder New York und Staat New York sind.
-
Obwohl Wissensgraphen so konfiguriert sein können, dass sie Schemawissen anzeigen, gilt dies nicht allgemein für größere Datensätze. Der primäre Grund dafür ist, dass die Aufnahme von Schemawissen in Wissensgraphen Skalierbarkeitsfragen aufwirft, die zur Konsequenz haben, dass der Arbeitsaufwand, der zum Aufnehmen von Informationen in einen Wissensgraphen erforderlich ist, mit der aufzunehmenden Menge an Informationen exponentiell steigen kann. Infolgedessen sind Schema-unbewusste Wissensgraphen üblich.
-
1A zeigt ein Beispiel einer Schema-unbewussten Einbettung, in der die Prädikate t1, t2, t3, tx und ty beliebig in den Vektorraum eingebettet wurden (ohne Berücksichtigung von Verhältnissen zwischen den Prädikaten). Die relative Positionierung der Vektoren 120, die die verschiedenen Prädikate in 1A darstellen, liefert keine nützlichen Informationen über die relevante Schemawissen.
-
Es gibt zwei bestehende Mechanismen, mit welchen Schemawissen in Wissensgraphen integriert werden kann: durch Vorbearbeitung der Informationen, die in die Wissensgraphen aufgenommen werden sollen; und durch Nachbearbeitung der Informationen, die in die Wissensgraphen aufgenommen werden sollen. 1B zeigt, wie die Anwendung der relevanten Schemawissen 110 an den Prädikaten t1, t2, t3, tx und ty die Form der resultierenden Einbettungen 130 verändert. Wie aus 1B erkennbar ist, ist die Äquivalenz der Aussagen durch Clustern der Vektoren 130 in dem erhaltenen (Schema-unbewussten) Wissensgraphen veranschaulicht.
-
In der Anwendung einer Vorbearbeitung an den Aussagen, die einen Wissensgraphen bilden, werden die Aussagen vor einer Zuordnung von Einbettungsvektoren für dien Wissensgraphen aktualisiert. Als ein Beispiel dafür könnte im Fall von „äquivalenten“ Verhältnissen für alle Dreiergruppen, die mit dem Muster <s, Partner Von, o> übereinstimmen, eine Dreiergruppe <s, Verheiratet Mit, o> dem Wissensgraphen hinzugefügt werden. Ebenso kann im Fall von „inversen“ Verhältnissen für alle Dreiergruppen, die mit dem Muster <s, Hat Als Teil, o> übereinstimmen, <o, Teil Von, s> dem Wissensgraphen hinzugefügt werden. Für eine Nachbearbeitungsanwendung werden Vorhersagen (Interferenzen) gemacht, nachdem die Aussagen dem Wissensgraphen hinzugefügt wurden, und diese Vorhersagen werden zum Einstellen der Vektoren verwendet, die bei den Aussagen angewendet werden. Die Vorhersagen sind als ein mathematisches Optimierungsproblem formuliert (im Speziellen ein Integer Linear Programming, ILP, Problem), sodass endgültige Vorhersage-Scores ein Kompromiss zwischen den Vorhersage-Scores, die von Wissensgraph-Einbettungen bereitgestellt werden, und einer Einhaltung logischer Einschränkungen sind, die durch das Verfahren auferlegt werden. Ein Beispiel für eine Nachbearbeitungsanwendung ist in „Knowledge base completion using embeddings and rules", von Wang, Q. et al., Proc. of the 24th IJCAI, 2015, Seiten 1859 bis 1865 beschrieben.
-
2 ist ein Prozessablauf, der veranschaulicht, wie die beiden bestehenden Mechanismen, durch die Schemawissen in Wissensgraphen integriert werden kann, bei der Einbettung von Aussagen (in der Form von Dreiergruppen) in einen Wissensgraphen verwendet werden können. Wie in 2 dargestellt, kann die Schemawissen 210 zum Aktualisieren der Dreiergruppen 212-1 bis 212-n vor einer Einbettung durch ein Einbettungsrechensystem 211 im Wissensgraphen verwendet werden (Vorverarbeitung, siehe 210-A). Alternativ kann die Schemawissen 210 verwendet werden, um die (Schema-unbewusste) Einbettung der Dreiergruppen 212-1 bis 212-n in den Wissensgraphen, der vom Einbettungsrechensystem 211 berechnet wurde, in Übereinstimmung mit logischen Einschränkungen vorzunehmen (Nachbearbeitung 210.B). In jedem Fall werden die Parameter des Modells, die dazu dienen, die Dreiergruppen in den Wissensgraphen einzubetten, nach Anwendung der Schemawissen generiert.
-
Wenn die Schemawissen einem Einbettungsmodell hinzugefügt wird, sind die primären Fragen, die zu behandeln sind, die Exaktheit der Hinzufügung der Schemawissen und die Skalierbarkeit der Mechanismen, die zum Hinzufügen des Wissens verwendet werden. Insbesondere ist es wünschenswert sicherzustellen, dass die Wissensgraph-Einbettungen mit einer verfügbaren Schemawissen übereinstimmen. Als ein Beispiel dafür sollten <s, Hat Als Teil, o> und <o, Teil Von, s> gleiche Scores zugeordnet werden. Ebenso sollten Prädikaten, die ähnlich sind, wie „Kollege Von“ und „Arbeitet Mit“ - die ähnliche aber nicht identische Bedeutungen haben - ähnliche Einbettungsvektoren zugeordnet werden. Jedes Verfahren, das beim Hinzufügen von Schemawissen verwendet wird, sollte auch imstande sein, sowohl exakte wie auch ungefähre inverse und Äquivalenzverhältnisse aufzunehmen, wie <Partner Von, Äquivalent, Verheiratet Mit>.
-
Wenn die Größe eingegebener Informationssätze zunimmt, steigt auch die Wahrscheinlichkeit für das Auftreten eines Fehlers in den eingegebenen Informationen. Es ist daher wünschenswert, dass ein Verfahren, das beim Hinzufügen einer Schemawissen verwendet wird, fehlerrobust sein sollte. Die primäre Frage bei einer zunehmenden Größe eingegebener Informationen ist jedoch die Skalierbarkeit der Mechanismen zum Hinzufügen der Schemawissen. Man hört nicht selten von eingegebenen Informationssätzen, die viele Millionen an einzelnen Informationen enthalten, zum Beispiel umfasst die DBpedia Wissensbasis (wie in „A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia" von Lehmann, J. et al., Semantic Web Journal, Band 6, Nr. 2, Seiten 167-195) besprochen, mehr als 400 Million Resource Description Framework Aussagen, die sich auf 3,7 Millionen Einheiten beziehen, wobei nur die englische Sprache verwendet wird. Daher ist es für jeden Mechanismus zum Hinzufügen von Schemawissen wünschenswert, auf große Datensätze skalierbar zu sein.
-
Wie oben erwähnt, treten sowohl bei der Vorbearbeitungs- als auch Nachbearbeitungsmethode zum Anwenden einer Schemawissen bei der Einbettung von Aussagen Probleme auf, insbesondere in Bezug auf Skalierbarkeit der eingesetzten Verfahren. Schema-unbewusste Einbettungsmodelle bilden üblicherweise semantisch naheliegende Prädikate auf sehr verschiedene Einbettungsvektoren ab (die Abbildung ist im Wesentlichen regellos), wodurch eine solche Schemawissen nicht zum Verbessern der Korrektheit der Einbettungen verwendet wird. Dies kann durch Vorbearbeitung der eingegebenen Aussagen gelöst werden, aber diese Methode skaliert nicht auf große Wissensgraphen infolge der Anforderung nach einer manuellen Durchsicht des Datensatzes. Während dies für kleinere eingegebene Informationssätze praktisch sein kann, macht die Skala größerer eingegebener Informationssätze, wie DBpedia (wie oben besprochen) diese Methode vollkommen unpraktisch.
-
Nachbearbeitungsverfahren können die Anforderung für eine manuelle Intervention relativ zur Vorbearbeitung verringern. Dies kann durch Auferlegen eines Satzes von Einschränkungen auf jede mögliche Tatsache erreicht werden, sodass eine verfügbare Schemawissen wiedergegeben wird, wenn die Einbettungsvektoren für jede Einheit und jedes Prädikat im Wissensgraphen gelernt werden (wie in „Knowledge base completion using embeddings and rules“, wie oben zitiert, besprochen). Dieses Verfahren erfordert jedoch, dass die Anzahl von Einschränkungen exponentiell mit der Anzahl von Einträgen und Verhältnissen im Wissensgraphen wächst, wodurch wiederum Skalierungsprobleme auftreten, wenn es bei größeren Datensätzen angewendet wird.
-
Es ist daher wünschenswert, ein Verfahren und eine Vorrichtung zum Komplettieren eines Wissensgraphen aus mehreren Prädikaten und zugehörigen Einheiten, enthaltend Schemawissen, bereitzustellen, das sowohl exakt wie auch skalierbar sind.
-
Ein Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren zum Komplettieren eines Wissensgraphen aus mehreren Prädikaten und zugehörigen Einheiten bereit, wobei die Prädikate jeweils Informationen über ein Verhältnis zwischen einem Paar von Einheiten bereitstellen, wobei das Verfahren die Schritte umfasst:
- Empfangen einer Eingabe, die die mehreren Prädikate und zugehörigen Einheiten umfasst; Durchsuchen einer Axiom-Datenbank und Identifizieren von Prädikaten unter den mehreren Prädikaten, die äquivalent zueinander oder Inverse voneinander sind; Identifizieren weiterer Prädikate, die miteinander verwandt sind, unter Verwendung der Axiom-Datenbank und identifizierten Prädikate; und Einbetten der identifizierten Prädikate und zugehörigen Einheiten in einen Vektorraum zum Komplettieren des Wissensgraphen, wobei die Prädikate und zugehörigen Einheiten zugeordnete Vektoren in der Einbettung sind, sodass eine Straffunktionssumme, die die Summe von Straffunktionswerten für alle Prädikate und zugehörigen Einheiten ist, minimiert ist, wobei die Straffunktionswerte sind: invers proportional zu der Ähnlichkeit zwischen zugeordneten Vektoren für zwei Prädikate, die als äquivalent zueinander identifiziert sind; direkt proportional zu der Unähnlichkeit zwischen zugeordneten Vektoren für zwei Prädikate, die als Inverse voneinander identifiziert sind; und gewichtet nach dem Grad einer Korrelation zwischen Prädikaten, die als verwandt identifiziert sind. Das Verfahren stellt ein exaktes und (rechnerisch) ressourceneffizientes Verfahren und eine Vorrichtung zum Komplettieren der Wissensgraphen bereit.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, wobei die mehreren Prädikate und zugehörigen Einheiten in der Form von Resource Description Framework Aussagen verwendet werden und jede Resource Description Framework Aussage die Form <Subjekt, Prädikat, Objekt> aufweist, wobei das Subjekt und Objekt Einheiten sind und das Prädikat das Verhältnis zwischen dem Subjekt und Objekt beschreibt. Resource Description Framework Aussagen sind eine allgemein verwendete und verstandene Form von Prädikaten und Einheiten, die mit einem weiten Bereich von Datenbanken kompatibel sind und in diesen verwendet werden.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, wobei ein Fehlen einer bestimmten Resource Description Framework Aussage in den Informationen, die zum Komplettieren des Wissensgraphen verwendet wird, nicht automatisch mit der Bedeutung interpretiert wird, dass das gegebene Resource Description Framework falsch ist. Die Annahme einer offenen Welt ist eine exaktere Darstellung des Großteils von Datensätzen als andere Alternativen.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, umfassend eine Analyse der Resource Description Framework Aussagen, die zum Komplettieren des Wissensgraphen verwendet werden, und eine Identifizierung von Resource Description Framework Aussagen, die fehlen; ein Bestimmen, welche der identifizierten fehlenden Resource Description Framework Aussagen wahrscheinlich falsch ist, auf Grundlage der Analyse; und ein Einstellen der Einbettung der Resource Description Framework Einheiten und Prädikate, die zum Komplettieren des Wissensgraphen verwendet werden, auf Grundlage der Bestimmung. Das Generieren negativer Beispiele auf derartige Weise erhöht ferner die Geschwindigkeit und Exaktheit, mit der der Wissensgraph komplettiert werden kann.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, wobei die Straffunktionssumme die folgende Form aufweist:
wobei θ die Parameter des Modells sind, die zum Komplettieren des Wissensgraphen verwendet werden; p und q Prädikate sind; A
1 ein Satz ist, der alle Schema-Äquivalenz-Axiome enthält; A
2 ein Satz ist, der alle Schema-Inverse-Axiome enthält; e(x) der Einbettungsvektor von x ist; Φ eine modellabhängige Transformationsfunktion ist; und D(x||y) ein Maß der Unähnlichkeit zwischen zwei gegebenen Vektoren x und y ist. Die Form der Straffunktionssumme kann zum effizienten Identifizieren der optimalen Modellparameter für den Wissensgraphen verwendet werden.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, umfassend ein Speichern des Satzes zugeordneter Vektoren, von welchen festgestellt wurde, dass sie die Straffunktionssumme minimieren. Dadurch kann auf die zugeordneten Vektoren leicht und rasch auf eine zukünftige Nutzung zugegriffen werden.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, ferner umfassend ein Identifizieren zusätzlicher Prädikate auf der Basis des Satzes zugeordneter Vektoren, von welchen festgestellt wurde, dass sie die Straffunktionssumme minimieren, und ein Aktualisieren der Axiom-Datenbank unter Verwendung der zusätzlichen Prädikate. Die derartige Identifizierung zusätzlicher Prädikate erleichtert die Komplettierung der Datenbanken.
-
Ein weiterer Aspekt einer Ausführungsform der vorliegenden Erfindung stellt ein Verfahren bereit, wobei die Straffunktionssumme unter Verwendung einer stochastischen Gradientenoptimierung minimiert wird. Eine stochastische Gradientenoptimierung ist für die Optimierung der Straffunktionssummen gemäß der vorliegenden Erfindung besonders gut geeignet.
-
Gemäß weiteren Aspekten von Ausführungsformen der vorliegenden Erfindung werden eine Vorrichtung, ein Computerprogramm und ein nicht flüchtiges, computerlesbares Medium, das das Computerprogramm umfasst, bereitgestellt, die dieselben Vorteile wie oben im Zusammenhang mit dem Verfahren besprochen, bereitstellen.
-
Figurenliste
-
Die Erfindung wird nur beispielhaft unter Bezugnahme auf die folgenden Figuren beschrieben, in welchen:
- 1A ein Beispiel eines Schema-unbewussten Wissensgraphen zeigt.
- 1B ein Beispiel eines Schema bewussten Wissensgraphen zeigt.
- 2 ein Ablaufdiagramm ist, das Techniken nach dem Stand der Technik zum Integrieren einer Schemawissen in Wissensgraphen zeigt.
- 3 eine schematische Darstellung einer Vorrichtung gemäß einem Aspekt einer Ausführungsform der vorliegenden Erfindung ist.
- 4 ein Ablaufdiagramm eines Beispiels einer Verbindungsprädikatisierung gemäß einem Aspekt einer Ausführungsform der vorliegenden Erfindung ist.
- 5 ein Blockdiagramm einer Rechenvorrichtung ist, die einen Aspekt einer Ausführungsform der vorliegenden Erfindung verkörpert.
-
AUSFÜHRLICHE BESCHREIBUNG
-
Die vorliegende Erfindung stellt eine Ergänzung zu bestehenden Schema-unbewussten Mechanismen zur Einbettung von Aussagen (Dreiergruppen) in Wissensgraphen bereit. Die folgende Beschreibung bezieht sich auf die Verwendung von RDF-Dreiergruppen, aber die Erfindung ist gleichermaßen bei anderen Modellen anwendbar, die von den RDF-Anforderungen abweichen. Als solches kann die Erfindung bei sämtlichen Informationen (Dreiergruppe) angewendet werden, die die <Einheit, Prädikat, Einheit> Form verwenden.
-
Nicht einschränkende Beispiele von Schema-unbewussten Modellen, bei welchen die vorliegende Erfindung angewendet werden kann, enthalten das Translating Embeddings Modell (TransE), das Bilinear-Diagonal Modell (DistMult) und das Complex Embeddings Modell (ComplEx). Das TransE-Modell ist ausführlich in „Translating embeddings for modelling multi-relational data“ von Bordes, A. et al., besprochen, verfügbar unter https://www.utc.fr/~bordesan/dokuwiki/ media/en/transe nips13.pdf vom 16. November 2016. Das DistMult-Modell ist ausführlich in „Embedding entities and relations for learning and interference in knowledge bases" von Yang, B. et al., besprochen, verfügbar unter https://arxiv.orq/abs/1412.6576 vom 16. November 2016. Das ComplEx-Modell ist ausführlich in „Complex Embedings for Simple Link Prediction" von Trouillon, T. et al., Proc. of the 33rd International Conference on Machine Learning, 201, besprochen. Jedes der hier besprochenen Modelle ordnet jeder Aussage (entsprechend einer Dreiergruppe) einen Vorhersage-Score zu. Die Aussagewahrscheinlichkeit korreliert direkt mit dem Vorhersage-Score der Aussage. Eine Zusammenfassung der Funktionsweise der Modelle ist in der Folge bereitgestellt.
-
Im Translating Embeddings Modell (TransE) werden jede Einheit e ∈ E und jedes Prädikat p ∈ R auf einen einzigartigen, kontinuierlichen Einbettungsvektor abgebildet. Der Einbettungsvektor einer Einheit e und der Einbettungsvektor eines Prädikats p können dann wie in der folgenden Gleichung 3 dargestellt definiert werden.
-
Unter Verwendung dieser Definitionen ist dann der Prädikatisierungs-Score f(<s, p, o>; θ) einer <s, p, o> Dreiergruppe durch Gleichung 4 gegeben, wobei ||x|| die L1 oder L2 Norm des Vektors x angibt und θ den Satz von Parametern des Modells angibt (die die Einbettungsvektoren aller Einheiten und Prädikate im Wissensgraphen enthalten).
-
Dreiergruppen mit höheren Vorhersage-Scores werden als eher wahrscheinlich angesehen als Dreiergruppe mit geringerem Vorhersage-Score. Da die Einbettungsvektoren im Voraus nicht bekannt sind, ist das Modell typischerweise konfiguriert, die Einbettungsvektoren regellos zu initialisieren und dann die Vektoren schrittweise zu aktualisieren, um so den Vorhersage-Score von Dreiergruppen im Wissensgraphen zu erhöhen (Aussagen gleichzusetzen, die als wahr verifiziert sind), während der Vorhersage-Score von Dreiergruppen abnimmt, die nicht im Graphen sind (Aussagen gleichzusetzen, die nicht als wahr verifiziert sind). TransE ist ein energiebasiertes Modell und diese Aktualisierung kann auch einer Minimierung des Werts einer Verlustfunktion über alle Dreiergruppen gleichgesetzt sein, wodurch versucht wird, ein Minimum der Verlustfunktion zu erreichen. Dieses Minimum ist für die Darstellung der Daten bezeichnend, die abgeleitet wurden, um Realität so exakt wie möglich darzustellen.
-
Das Bilinear-Diagonal Modell (DistMult) beruht auf dem TransE-Modell wie oben angeführt. Dieses Modell beruht jedoch auf multiplikativen Interaktionen zwischen den Einbettungsvektoren für e und p, und nicht auf den additiven Interaktionen, die im TransE-Modell verwendet werden. Daher wird der Vorhersage-Score im DistMult-Modell wie in Gleichung 5 dargestellt erhalten. In Gleichung 4 zeigt die rechte Seite der Komponente das Komponentenskalarprodukt für e(p) e(s) e(o). Wie im Fall des TransE-Modells sind die Einbettungsvektoren regellos initialisiert.
-
Das Complex Embeddings Modell (ComplEx) beruht seinerseits auf dem DistMult-Modell. Anstelle jedoch rein reale Zahlen zu verwenden, verwendet das ComplEx-Modell komplexwertige Einbettungen, während die mathematische Definition des Skalarprodukts beibehalten wird. Daher ist der Vorhersage-Score für eine Aussage (Dreiergruppe) durch Gleichung 6 gegeben, wobei, wenn x ∈ ℂ
k, Re(x) ∈ ℝ
k den realen Teil von angibt und Im(x) ∈ ℝ
k den imaginären Teil von x angibt. Wie im Fall des TransE- und DistMult-Modells sind die Einbettungsvektoren wieder regellos initialisiert.
-
Den TransE-, DistMult- und ComplEx-Modellen ist die Minimierung einer Verlustfunktion eigen, wie oben im Zusammenhang mit TransE besprochen. Die Verlustfunktion (oder Kostenfunktion) wird minimiert, um die Darstellung der Daten zu optimieren, wodurch der exakteste Wissensgraph, der die Verhältnisse zwischen den Aussagen darstellt, in der Form eines Satzes optimaler Modellparameter θ* erhalten wird. Die Parameter θ des Modells umfassen, sobald sie optimiert sind (θ*) einen Einbettungsvektor für jede Einheit und jedes Prädikat im Wissensgraphen, der zum Komplettieren des Wissensgraphen verwendet werden kann.
-
Verlustfunktionen sind nicht modellspezifisch, aber ein Beispiel für eine Verlustfunktion, die bei allen TransE-, DistMult- und ComplEx-Modellen anwendbar ist, ist in Gleichung 7 dargestellt, wobei G der komplette Satz von Aussagen (Dreiergruppen) ist und C eine Funktion ist, die, wenn sie an einer bestimmten Dreiergruppe <s, p, o> angewendet wird, alle Dreiergruppen liefert, die durch Ersetzen einer der Einheiten (s oder o) durch eine andere Einheit aus G erhalten werden können. Ein benutzerdefinierter Parameter ist durch y ∈ ℝ angegeben.
-
Die optimalen Parameter werden durch Minimieren der Verlustfunktion gefunden, das heißt, gemäß θ* = argmine L(θ). Dies ist unabhängig von der speziellen Form der verwendeten Verlustfunktion wahr.
-
In Systemen nach dem Stand der Technik wird bei der Optimierung der Parameter die Schemawissen nicht berücksichtigt (alle der oben besprochenen Modelle sind Schema-unbewusst). Die vorliegende Erfindung stellt Modifizierungen für Verlustfunktionen bereit (wie die Verlustfunktion, die in Gleichung 7 dargestellt ist), um die Schemawissen zu berücksichtigen. Dies wird durch die Verwendung zusätzlicher Einschränkungen erreicht, die auferlegt werden, wenn die Verlustfunktion minimiert wird, um die optimalen Parameter zu erhalten.
-
Damit die zusätzlichen Parameter erklärt werden können, ist es notwendig, zwei Sätze von Axiomen, A
1 und A
2, zu definieren. A
1 ist ein Satz, der alle Schema-Äquivalenzaxiome enthält, und A
2 ist ein Satz, der alle Schema-Inversaxiome enthält. Diese beiden Sätze können mathematisch definiert werden, wie unten in Gleichung 8 dargestellt, wobei p und q Prädikate sind.
-
Mit den Axiomsätzen A1 wie in Gleichung 8 definiert, wendet die Erfindung die Einschränkung an, dass für alle Einheiten s, o ∈ E, wobei p = q, die Scores f(<s, p, o>; θ) und f(<s, q, o>; θ) dieselben sein sollten, indem begünstigt wird, dass p und q dieselbe Einbettung haben, d.h. e(p) = e(q). Anstatt eine deutliche Einschränkung f(<s, p, o>; θ) = f(<s, q, o>; θ) für jede Einheit aufzuerlegen, wird eine einzelne Einschränkung e(p) = e(q) auf die Prädikat-Einbettungen e(p) und e(q) auferlegt. Auf diese Weise werden die Äquivalenzaxiome respektiert.
-
Mit dem Axiomsatz A2, wie ebenso in Gleichung 8 definiert, wendet die Erfindung die Einschränkung an, dass, für alle Einheiten s, o ∈ E, wobei p = q- ist, die Scores f(<s, p, o>; θ) und f(<o, q, s>; θ) dieselben sein sollten. Um dieses Ergebnis mit einer Anzahl von Einschränkungen zu erhalten, die nicht durch die Anzahl von Einheiten im Wissensgraphen beeinflusst ist, wird eine modellabhängige Funktion ϕ: ℝk → ℝk definiert. Durch Anwenden von e(p) = ϕ(e(q)) begünstigt die modellabhängige Funktion, dass für jedes Paar von Einheiten, s, o ∈ E, der Score von <s, o, p> und <o, q, s> derselbe ist: f(<s, p, o>; θ) = f(<o, q, s>; θ).
-
Eine strikte Durchsetzung der Einschränkungen, die sich auf die Axiome in den Sätzen A1 und A2 beziehen, erfordert die Verwendung harter Einschränkungen (unverletzbarer Einschränkungen). Die derartige Verwendung harter Einschränkungen kann effizient die Einbettung der Vektoren anpassen, um die Schemawissen zu berücksichtigen, ist aber auf die Verwendung mit absolut verifizierten Daten-äquivalenten oder -inversen Verhältnissen beschränkt. Das heißt, die derartige Verwendung harter Einschränkungen würde die Fähigkeit von Ausführungsformen der Erfindung verringern, Verhältnisse zu berücksichtigen, die die zwei Prädikate, obwohl sie nicht direkt äquivalent oder invers zueinander sind, mit verwandten Bedeutungen angeben. Ein Beispiel verwandter Prädikate ist der Fall der Prädikate Verheiratet Mit und Partner Von: obwohl nicht äquivalent haben sie eine verwandte Bedeutung und wenn <s, Verheiratet Mit, o> wahr ist, dann ist <s, Partner Von, o> mit größerer Wahrscheinlichkeit auch wahr. Obwohl <s, Partner Von, o> mit größerer Wahrscheinlichkeit in dieser Situation auch wahr ist, ist die Wahrscheinlichkeit einer Gültigkeit nicht so hoch wie wenn die zwei Prädikate exakte Äquivalente voneinander wären.
-
Damit verwandte Prädikate berücksichtigt werden können, können Ausführungsformen der vorliegenden Erfindung auch weiche Einschränkungen verwenden, die zum Definieren gewünschter Eigenschaften verwendet werden, die begünstigt sind, die aber nicht unverletzbar sind. Damit die Art eines Verhältnisses zwischen zwei Prädikaten berücksichtigt werden kann, insbesondere, wie ähnlich (oder invers) zwei Prädikate zueinander sind, wenden Ausführungsformen der vorliegenden Erfindung einen Gewichtungsfaktor (λ) bei den Einschränkungen an. Der Gewichtungsfaktor (λ) ist im Wesentlichen ein Maß der Bedeutung eines gegebenen Verhältnisses zwischen Prädikaten. Für ähnlichere (oder zueinander inverse) Prädikate ist der Gewichtungsfaktor groß, so dass jede Abweichung von den Idealwerten, wie oben definiert (für Äquivalenz: f(<s, p, o>; θ) = f(<s, q, o>; θ) und für Inverse: f(<s, p, o>; θ) = f(<o, q, s>; θ)), eine signifikante Auswirkung auf den Verlustfaktor (wie unten definiert) hat. Für Prädikate, wo ein weniger starkes Verhältnis vorliegt, ist der Gewichtungsfaktor kleiner, sodass jede Abweichung von den Idealwerten eine weniger signifikante Auswirkung auf den Verlustfaktor hat. Für harte Einschränkungen kann der Gewichtungsfaktor (λ) maximal sein, um die relative Bedeutung der harten Einschränkungen wie oben besprochen wiederzugeben.
-
Zum Integrieren der gewichteten Einschränkungen in den Verlustfaktor modifiziert die vorliegende Erfindung einen bestehenden Verlustfaktor (wie den Verlustfaktor, der in Gleichung 7 dargestellt ist), um einen zusätzlichen Straffunktionsterm R
s(θ) aufzunehmen, wie in Gleichung 9 dargestellt. Der Wert von R
s(θ) ist die ungewichtete Straffunktionssumme; eine Summe der ungewichteten Straffunktionswerte für alle Einbettungsvektoren,
-
In Gleichung 9 gibt der erste Summierungsterm der Unähnlichkeit zwischen der Einbettung von p, e(p) und der Einbettung von q, e(q), eine Strafsumme (erhöht den Score entsprechend), wenn die zwei Prädikate als äquivalent identifiziert werden (durch die Schema-Äquivalenzaxiome aus Satz A1). Der zweite Summierungsterm gibt der Unähnlichkeit zwischen der Einbettung von p, e(p) und einer Transformation der Einbettung von q, ϕe(q), eine Strafsumme, wenn die zwei Prädikate als invers zueinander identifiziert werden (durch die Schema-Äquivalenzaxiome aus Satz A2). Die Transformationsfunktion ϕ(•) wird analytisch für jedes Einbettungsmodell derart abgeleitet, dass für jedes Paar von Einheiten s, o ∈ E, die Dreiergruppen <s, p, o>, und <o, p, s> mit demselben Score verknüpft sind, wie oben besprochen.
-
In Gleichung 9 gibt die Notation D(x||y) ein Maß der Unähnlichkeit zwischen zwei Vektoren (x und y) an. In einem Aspekt einer Ausführungsform der vorliegenden Erfindung, D(x||y) = ||y-y||2, aber es können auch andere Formen zum Messen der Ähnlichkeit zwischen zwei Vektoren, wie Kosinus-Ähnlichkeitsmessungen, verwendet werden.
-
Die Kosinus-Ähnlichkeit ist ein Maß einer Ähnlichkeit zwischen zwei Vektoren und wird unter Verwendung von Gleichung 10 berechnet, wobei A und B Vektoren sind, von welchen jeder n Komponenten hat. Die Symbole A
i und B
i geben die i-ten Komponenten von A bzw. B an.
-
Das Ergebnis von Gleichung 10 ist der Kosinus-Ähnlichkeitswert, der ein Wert zwischen 0 und 1 ist, der die Ähnlichkeit zwischen den zwei eingegebenen Vektoren angibt, wobei ein Wert von 1 angibt, dass der Vergleich zwischen zwei identischen Vektoren gemacht wurde, und geringere Werte angeben, dass der Vergleich zwischen ungleicheren Vektoren gemacht wurde.
-
Unter Verwendung der Gleichung für Rs(θ), wie in Gleichung 9 dargestellt, kann eine bestehende Verlustfunktion (zum Beispiel die in Gleichung 7 dargestellte Funktion) modifiziert werden, um die gewichteten weichen Einschränkungen zu berücksichtigen, indem die Gewichtungsfaktoren (λ) für die Axiome aufzunehmen, um die Straffunktionssumme λRs(θ) zurückzugeben. Die Straffunktionssumme ist die Summe der gewichteten Straffunktionswerte aller Prädikate und zugehörigen Einheiten, die Straffunktionswerte sind: invers proportional zu der Ähnlichkeit zwischen zugeordneten Vektoren für zwei Prädikate, die als äquivalent zueinander identifiziert sind; direkt proportional zu der Unähnlichkeit zwischen zugeordneten Vektoren für zwei Prädikate, die als invers zueinander identifiziert sind; und gewichtet gemäß dem Grad einer Korrelation zwischen Prädikaten, die als verwandt identifiziert sind.
-
Die erhaltene modifizierte Verlustfunktion gemäß einem Aspekt der vorliegenden Erfindung ist mit dem Symbol L
s bezeichnet und ist durch Gleichung 11 gegeben, wie unten dargestellt.
-
Aspekte der Ausführungsformen der vorliegenden Erfindung verwenden Gradientenalgorithmen zum Optimieren von Ls, das heißt zum Minimieren der Verlustfunktion gemäß θ* = argminθ L(θ), und erhalten den Satz optimaler Modellparameter θ*. Stochastische Gradientenalgorithmen sind besonders gut für die Optimierung geeignet, die für Ausführungsformen der vorliegenden Erfindung erforderlich sind, da dieses Verfahren die modifizierte Verlustfunktion nach jeder Einbettungsvektorvariation neu berechnet. Es können jedoch auch andere Algorithmen wie Batch- oder Mini-Batch-Gradientenalgorithmen verwendet werden.
-
Eine schematische Darstellung einer Vorrichtung 1000 gemäß Ausführungsformen der vorliegenden Erfindung ist in 3 dargestellt. In Betrieb empfängt die Vorrichtung 1000 mehrere Prädikate und zugehörige Einheiten in der Form mehrerer Dreiergruppen. Wie oben besprochen, können die Dreiergruppen RDF-Dreiergruppen sein, obwohl dies kein wesentliches Merkmal der Erfindung ist. Die Prädikate und zugehörigen Einheiten werden von einem Datenempfänger 1001 empfangen. Der Datenempfänger 1001 kann die Prädikate und zugehörigen Einheiten über eine manuelle Eingabe von einem Benutzer empfangen (zum Beispiel durch Tastatureingabe), aber typischerweise sind die Prädikate und zugehörigen Einheiten in einer Datendatei bereitgestellt. Die Datendatei kann über eine Internetverbindung empfangen werden oder kann auf die Vorrichtung über eine physische Speichervorrichtung, wie eine Festplatte oder optische Platte hochgeladen werden.
-
Die Vorrichtung 1000 gewinnt auch die Schemawissen aus einer Schemawissensdatenbank 2001. In dem Aspekt einer Ausführungsform der Erfindung, in 3 dargestellt, ist die Schemawissensdatenbank 2001 von der Vorrichtung 1000 getrennt und die Schemawissen wird von einem Informationsabrufer 1002 aus der Schemawissensdatenbank 2001 über eine Verbindung zur fernen Schemawissensdatenbank 2001 abgerufen. In Aspekten von Ausführungsformen der vorliegenden Erfindung ist die Schemawissensdatenbank 2001 auf einem fernen Server gespeichert, mit der Vorrichtung 1000 entweder über das Internet oder über eine dedizierte Datenverbindung verbunden, die vom Internet isoliert ist. In alternativen Aspekten von Ausführungsformen der Erfindung ist die Schemawissensdatenbank 2001 jedoch in der Vorrichtung 1000 integriert und der Informationsabrufer 1002 ist zum Extrahieren der erforderlichen Schemawissen direkt aus der lokalen Datenbank verantwortlich. Optional kann eine Schemawissensdatenbank 2001 periodisch mit einer fernen Schemawissensdatenbank synchronisiert werden. Der Informationsabrufer ist zum Erhalten der Schemawissen verantwortlich, das heißt Axiome, die Prädikate aus den mehreren Prädikaten identifizieren (die durch den Datenempfänger 1001 erhalten werden), die zueinander äquivalent oder Inverse voneinander sind.
-
Die Schemawissen und die Prädikate und zugehörigen Einheiten werden dann zu einem Trainer 1004 geleitet, der den Prädikaten und zugehörigen Einheiten Einbettungsvektoren zum Komplettieren des Wissensgraphen zuordnet. Wie oben ausführlicher besprochen, wird diese Zuordnung von Einbettungsvektoren so durchgeführt, dass die Straffunktionssumme minimiert ist, wobei die Straffunktionswerte für ein bestimmtes Prädikat und zugehörige Einheiten sind: invers proportional zu der Ähnlichkeit zwischen zugeordneten Vektoren für zwei Prädikate, die durch den Informationsabrufer 1002 als äquivalent zueinander identifiziert sind; direkt proportional zu der Unähnlichkeit zwischen zugeordneten Vektoren für zwei Prädikate, die durch den Informationsabrufer 1002 als Inverse voneinander identifiziert sind; und gewichtet nach dem Grad einer Korrelation zwischen Prädikaten, die als verwandt identifiziert sind.
-
Optional kann der Trainer 1004 mit einem Beispielgenerator 1005 bei Durchführung der Zuordnung von Einbettungsvektoren kommunizieren. Der Beispielgenerator 1005 dient besonders zur Verwendung in Aspekten von Ausführungsformen der Erfindung, die sich an die Annahme der offenen Welt (wie oben besprochen) halten, wie jene Aspekte, die als eine Eingang Dreiergruppe gemäß den RDF-Anforderungen empfangen. Gemäß der Annahme einer offenen Welt codiert eine Dreiergruppe, die nicht im RDF ist, nicht unbedingt eine falsche Aussage, sondern es ist vielmehr nicht bekannt, ob die entsprechende Aussage wahr oder falsch ist. In gewissen Wissensgraph-Einbettungsmodellen, mit welchen die vorliegende Erfindung verwendet werden kann, werden Einheit- und Prädikat-Einbettungen durch schrittweises Erhöhen des Scores von Dreiergruppen im Graphen gelernt, während der Score von Dreiergruppen gesenkt wird, die nicht in dem Graphen sind, von welchen angenommen wird, dass sie mit geringerer Wahrscheinlichkeit wahre Aussagen codieren. Der Beispielgenerator 1005 ist konfiguriert zum: Analysieren der Resource Description Framework Aussagen, die zum Komplettieren des Wissensgraphen verwendet werden; Identifizieren von Resource Description Framework Aussagen, die fehlen; Bestimmen, welche der identifizierten fehlenden Resource Description Framework Aussagen wahrscheinlich falsch ist, auf Grundlage der Analyse, wobei das Fehlen einer bestimmten Resource Description Framework Aussage in den Informationen, die zum Komplettieren des Wissensgraphen verwendet werden, nicht automatisch mit der Bedeutung interpretiert wird, dass die gegebene Resource Description Framework Aussage falsch ist; und Einstellen der Einbettung der Resource Description Framework Aussagen, die zum Komplettieren des Wissensgraphen verwendet werden, auf Grundlage der Bestimmung (in Verbindung mit dem Trainer 1004). Dabei erlaubt der Beispielgenerator 1005, dass der Optimierungsprozess effizienter durchgeführt wird.
-
Die Vorrichtung 100 kann optional eine Speichereinheit 1006 enthalten, die zum Speichern der optimalen Modellparameter verwendet wird, das heißt des optimalen Einbettungsvektors für jede Einheit und jedes Prädikat, sobald der optimale Modellparameter identifiziert wurde. In dem Aspekt einer Ausführungsform der Erfindung, die in 3 dargestellt ist, umfasst die Speichereinheit 1006 eine Festplatte, die Teil der Vorrichtung 1000 ist, wodurch die optimalen Modellparameter lokal gespeichert werden können, sodass der Wissensgraph rasch abgerufen und manipuliert werden kann. Alternativ kann die Vorrichtung 1000 zum Übertragen der optimalen Modellparameter entweder über das Internet oder über ein anderes Mittel, zu einer fernen Stelle (wie einen Server) konfiguriert sein.
-
Die optimalen Modellparameter können für verschiedene Zwecke verwendet werden, sobald der Wissensgraph komplettiert ist. Eine Möglichkeit, diese Parameter zu verwenden, ist in der Generierung zusätzlicher Dreiergruppen. Durch Analysieren der optimalen Modellparameter kann der Trainer 1004 konfiguriert sein, zusätzliche Dreiergruppen zu generieren, die nicht in den anfänglichen Informationen enthalten sind, die durch den Datenempfänger 1001 empfangen werden, für die die komplettierten Wissensgraphen anzeigen, dass sie korrekt (wahr) sind. Diese zusätzlichen Dreiergruppen können für eine Verifizierung durch Menschen ausgegeben werden. Dieser Prozess wird auch als Verbindungsvorhersage bezeichnet.
-
Die Anwendung der vorliegenden Erfindung bei einer Verbindungsvorhersage ist von besonderem Wert, wenn Ausführungsformen der Erfindung für eine Komplettierung von Datenbanken verwendet werden. Dies gilt insbesondere für Situationen, in welchen äquivalente und inverse Eigenschaften in einem einzigen Datensatz vorhanden sind oder in welchen eine Datenbank durch Kombinieren von Daten aus mehreren Datensätzen gebildet wird (die nicht unbedingt dieselben Felder enthalten müssen). Beispielhafte Situationen enthalten Populationsdatenbanken, medizinische Datenbanken, finanzielle oder kommerzielle Datenbanken und dergleichen.
-
4 ist ein Ablaufdiagramm, das eine beispielhafte Implementierung der Erfindung zur Verbindungsvorhersage zeigt. Ein verallgemeinertes (Schemaunbewusstes) Verbindungsvorhersagemodell wird unter Berücksichtigung der bereitgestellten Schemawissen 410 modifiziert und ein neues Verbindungsvorhersagemodell 411 wird generiert. Das neue Modell 411 berücksichtigt die Schemawissen 410 bei der Zuordnung von Scores zu den eingegebenen Dreiergruppen 412-1 bis 412-n, sodass die auferlegten Einschränkungen (Äquivalenten und inverse Äquivalenzen) erfüllt sind. Das neue, Schema-bewusste Modell 411 generiert Scores 413-1 bis 413-n, sodass die Dreiergruppen, die durch die Einschränkungen beeinflusst sind, nun ähnliche Scores erhalten.
-
5 ist ein Blockdiagramm einer Rechenvorrichtung, wie eines Personal Computers, die einen Aspekt einer Ausführungsform der vorliegenden Erfindung verkörpert und die zum Implementieren einer Ausführungsform des Verfahrens zum Komplettieren eines Wissensgraphen aus mehreren Prädikaten und zugehörigen Einheiten verwendet werden kann. Die Rechenvorrichtung umfasst einen Prozessor 993 und einen Speicher 994. Optional enthält die Rechenvorrichtung auch eine Netzwerkschnittstelle 997 zur Kommunikation mit anderen Rechenvorrichtungen, zum Beispiel mit anderen Rechenvorrichtungen der erfindungsgemäßen Ausführungsformen oder für ein Rechnen mit fernen Datenbanken.
-
Zum Beispiel kann ein Aspekt einer Ausführungsform der Erfindung aus einem Netzwerk solcher Rechenvorrichtungen bestehen, sodass Komponenten der Vorrichtung 1000 über mehrere Rechenvorrichtungen aufgeteilt sind. Optional enthält die Rechenvorrichtungen auch einen oder mehrere Eingabemechanismen, wie Tastatur und Maus oder eine Berührungsbildschirm-Schnittstelle 996, und eine Anzeigeeinheit wie einen oder mehrere Monitore 995. Die Komponenten können über einen Bus 992 miteinander verbunden werden.
-
Der Speicher 994 kann ein computerlesbares Medium enthalten, wobei dieser Begriff ein einzelnes Medium oder mehrere Medien bezeichnen kann (z.B. eine zentralisierte oder verteilte Datenbank und/oder zugehörige Caches und Server), die konfiguriert sind, computerausführbare Anweisungen zu tragen oder Datenstrukturen zu speichern. Computerausführbare Anweisungen können zum Beispiel Anweisungen und Daten enthalten, die für einen Allgemeinzweck-Computer, Spezialzweck-Computer oder eine Spezialzweck-Verarbeitungsvorrichtung (z.B. einen oder mehrere Prozessoren) zugänglich sind und diese(n) veranlassen, eine oder mehrere Funktionen oder Operationen auszuführen. So kann der Begriff „computerlesbares Speichermedium“ auch jedes Medium enthalten, das imstande ist, einen Satz von Anweisungen zur Ausführung durch die Maschine zu speichern, zu codieren oder zu tragen, und der die Maschine veranlasst, eines oder mehrere der Verfahren der vorliegenden Offenbarung auszuführen. Der Begriff „computerlesbares Speichermedium“ kann daher so verstanden werden, dass er, ohne aber darauf beschränkt zu sein, Festkörperspeicher, optische Medien und magnetische Medien enthält.
-
Der Prozessor 993 ist konfiguriert, die Rechenvorrichtung zu steuern und Verarbeitungsoperationen auszuführen, zum Beispiel einen Code auszuführen, der im Speicher gespeichert ist, um die verschiedenen unterschiedlichen Funktionen des Datenempfängers 1001, Informationsempfängers 1002, Trainers 1004 und optional der Schemawissensdatenbank 2001, des Beispielgenerators 1005 und der Speichereinheit 1006, wie hier und in den Ansprüchen beschrieben, auszuführen. Der Speicher 994 speichert Daten, die vom Prozessor 993 gelesen und geschrieben werden. Wie hier erwähnt, kann ein Prozessor eine oder mehrere Allzweck-Verarbeitungsvorrichtungen, wie einen Mikroprozessor, eine zentrale Verarbeitungseinheit oder dergleichen enthalten. Der Prozessor kann einen Complex Instruction Set Computing (CISC) Mikroprozessor, Reduced Instruction Set Computing (RISC) Mikroprozessor, Very Long Instruction Word (VLIW) Mikroprozessor oder einen Prozessor, der andere Anweisungssätze implementiert oder Prozessoren, die eine Kombination von Anweisungssätzen implementieren, enthalten. Der Prozessor kann auch eine oder mehrere Spezialzweck-Verarbeitungsvorrichtungen, wie eine anwendungsspezifische integrierte Schaltung (ASIC), ein feldprogrammierbares Gate-Array (FPGA), einen Digitalsignalprozessor (DSP), Netzwerkprozessor oder dergleichen enthalten. In einer oder mehreren Ausführungsformen ist ein Prozessor konfiguriert, Anweisungen zur Durchführung der hier besprochenen Operationen und Schritte auszuführen.
-
Die Anzeigeeinheit 997 kann eine Darstellung von Daten anzeigen, die durch die Rechenvorrichtung gespeichert werden, und kann auch einen Cursor und Dialogfelder und -schirme anzeigen, die eine Interaktion zwischen einem Benutzer und Programmen und Daten, die auf der Rechenvorrichtung gespeichert sind, ermöglichen.
-
Die Netzwerkschnittstelle (Netzwerk I/F) 997 kann mit einem Netzwerk, wie dem Internet, verbunden sein, und ist mit anderen solchen Rechenvorrichtungen über das Netzwerk verbunden. Die Netzwerk I/F 997 kann eine Dateneingabe/-ausgabe von/zu anderen Vorrichtungen über das verabreicht werden steuern.
-
Andere periphere Vorrichtungen, wie Mikrophon, Lautsprecher, Drucker, Stromversorgungseinheit, Gebläse, Gehäuse, Scanner, Trackerball usw., können in der Rechenvorrichtung enthalten sein.
-
Der Datenempfänger 1001 von 3 kann ein Prozessor 993 (oder mehrere davon) sein, der Verarbeitungsanweisungen (ein Programm) ausführt, die auf einem Speicher 994 gespeichert sind, und Daten über eine Netzwerk I/F 997 oder einen Bus 992 austauscht. Insbesondere kann der Prozessor 993 Verarbeitungsanweisungen ausführen, um Dreiergruppen (Prädikate und zugehörige Einheiten) zu empfangen, wie oben besprochen. Ferner kann der Prozessor 993 Verarbeitungsanweisungen ausführen, um die empfangenen Dreiergruppen auf einer angeschlossenen Speichereinheit zu speichern und/oder die Dreiergruppe über die Netzwerk I/F 997 oder den Bus 992 zu anderen Komponenten in der Vorrichtung 1000 zu senden.
-
Der Informationsempfänger 1002 von 3 kann ein Prozessor 993 (oder mehrere davon) sein, der Verarbeitungsanweisungen (ein Programm) ausführt, die auf einem Speicher 994 gespeichert sind, und Daten über eine Netzwerk I/F 997 oder einen Bus 992 austauscht. Insbesondere kann der Prozessor 993 Verarbeitungsanweisungen ausführen, um relevante Schemawissen von einer Schemawissensdatenbank 2001 abzurufen, wie oben besprochen. Ferner kann der Prozessor 993 Verarbeitungsanweisungen ausführen, um die empfangene Schemawissen auf einer angeschlossenen Speichereinheit zu speichern und/oder die Schemawissen über die Netzwerk I/F 997 oder den Bus 992 zu anderen Komponenten in der Vorrichtung 1000 zu senden.
-
Der Trainer 1004 von 3 kann ein Prozessor 993 (oder mehrere davon) sein, der Verarbeitungsanweisungen (ein Programm) ausführt, die auf einem Speicher 994 gespeichert sind, und Daten über eine Netzwerk I/F 997 oder einen Bus 992 austauscht. Insbesondere kann der Prozessor 993 Verarbeitungsanweisungen ausführen, um die identifizierten Prädikate und zugehörigen Einheiten in einen Vektorraum gemäß der Minimierung der Straffunktionssumme einzubetten, um den Wissensgraphen zu komplettieren, wie oben besprochen. Ferner kann der Prozessor 993 Verarbeitungsanweisungen ausführen, um den Wissensgraphen (optimale Modellparameter) auf einer angeschlossenen Speichereinheit zu speichern und/oder den Wissensgraphen über die Netzwerk I/F 997 oder den Bus 992 zu anderen Komponenten in der Vorrichtung 1000 zu senden.
-
Verfahren, die die vorliegende Erfindung verkörpern, können auf einer oder mehreren Rechenvorrichtungen ausgeführt werden, wie jener, die in 5 veranschaulicht ist. Eine solche Rechenvorrichtung muss nicht jede Komponente aufweisen, die in 5 veranschaulicht ist, und kann aus einem Teilsatz dieser Komponenten bestehen. Ein Verfahren das die vorliegende Erfindung verkörpert, kann durch eine einzige Rechenvorrichtung ausgeführt werden, die mit einem oder mehreren Datenspeicherservern über ein Netzwerk, wie oben besprochen, in Kommunikation ist.
-
Da Ausführungsformen der vorliegenden Erfindung konfiguriert sind, die Schemawissen in den Prozess zum Zuordnen der Einbettungsvektoren zu integrieren, stellen die erhaltenen Wissensgraphen die Verhältnisse zwischen eingegebenen Dreiergruppen besser dar als Wissensgraphen, die durch bestehende, Schema-unbewusste Verfahren generiert werden. Da ferner die vorliegende Erfindung die Verwendung einer Nachbearbeitungs-Schemawissensimplementierung vermeidet, steigt die Anzahl erforderlicher Einschränkungen nicht exponentiell und die vorliegende Erfindung kann daher bei großen Datensätzen angewendet werden, ohne unangemessene Rechenressourcen zu erfordern. Die vorliegende Erfindung stellt daher ein exaktes und (rechnerisch) ressourceneffizientes Verfahren und eine Vorrichtung zum Komplettieren von Wissensgraphen bereit. Wie oben besprochen, kann das Verfahren unter Verwendung eines Computerprogramms implementiert werden, das auf einem nicht flüchtigen, computerlesbaren Medium gespeichert werden kann.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- Knowledge base completion using embeddings and rules“, von Wang, Q. et al., Proc. of the 24th IJCAI, 2015, Seiten 1859 bis 1865 [0019]
- A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia“ von Lehmann, J. et al., Semantic Web Journal, Band 6, Nr. 2, Seiten 167-195 [0022]
- Embedding entities and relations for learning and interference in knowledge bases“ von Yang, B. et al., besprochen, verfügbar unter https://arxiv.orq/abs/1412.6576 vom 16. November 2016 [0037]
- Das ComplEx-Modell ist ausführlich in „Complex Embedings for Simple Link Prediction“ von Trouillon, T. et al., Proc. of the 33rd International Conference on Machine Learning, 201 [0037]