DE102022202983A1

DE102022202983A1 - Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg

Info

Publication number: DE102022202983A1
Application number: DE102022202983.6A
Authority: DE
Inventors: Mohamed Gad-Elrab; Jannik Stroetgen; Heike Adel-Vu; Hassan Soliman; Dragan Milchevski
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2023-09-28
Also published as: US20230306283A1; CN116805009A; JP2023143880A

Abstract

Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext (110) mit einer Entität (106-11, ..., 106-nm) über Wissensbasen hinweg, gekennzeichnet durch, abhängig von den Trainingsdaten, Trainieren (302) des Modells zum Zuordnen einer Entität einer ersten Wissensbasis (106-1) zu ihrer ersten Darstellung in einem Vektorraum, zum Zuordnen einer Entität einer zweiten Wissensbasis (106-n) zu ihrer zweiten Darstellung in dem Vektorraum, zum Zuordnen der Erwähnung zu einer dritten Darstellung in dem Vektorraum, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Erwähnung in einem Textkontext und ihre entsprechende Referenzentität entweder in der ersten Wissensbasis (106-1) oder der zweiten Wissensbasis (106-n) umfasst.

Description

Stand der Technik
Die Erfindung betrifft eine Vorrichtung und ein Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg.
Beim Verknüpfen von Entitäten werden Erwähnungen in der Regel mit einem Hintergrund-Wissensgraphen aus einer spezifischen Domäne verknüpft. Ansätze aus dem Stand der Technik, die mehrere Domänen ansprechen, bearbeiten das Problem des Verknüpfens mit einem anderen Wissensgraphen durch Zero-Shot-Lernen.
Ledell Wu, Fabio Petroni, Martin Josifoski, Sebastian Riedel und Luke Zettlemoyer. Scalable zero-shot entity linking with dense entity retrieval. In Bonnie Webber, Trevor Cohn, Yulan He und Yang Liu, Herausgeber, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, 16.-20. November 2020, Seiten 6397-6407. Association for Computational Linguistics, 2020. Doi: 10.18653/vl/2020.emnlp-main.519 offenbaren einen Ansatz nach dem Stand der Technik.
Für diesen Ansatz muss jedoch ein Benutzer oder eine Maschine entscheiden, mit welchem Wissensgraphen die Erwähnungen verknüpft werden sollen, d. h. er/sie muss die fragliche Domäne kennen. Angesichts eines neuen Textes kann dies sehr wohl eine Herausforderung darstellen oder sehr viel Zeit und Rechenressourcen erfordern.
Offenbarung der Erfindung
Das Verfahren, die Vorrichtung und das Computerprogramm gemäß den unabhängigen Ansprüchen verbessern das Verknüpfen von Entitäten insbesondere bei großformatigen Problemen, bei denen viele, insbesondere Millionen, möglicher Entitäten für jede Erwähnung zu berücksichtigen sind.
Das Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext mit einer Entität über Wissensbasen hinweg umfasst, abhängig von den Trainingsdaten, Trainieren des Modells zum Zuordnen einer Entität einer ersten Wissensbasis zu ihrer ersten Darstellung in einem Vektorraum, zum Zuordnen einer Entität einer zweiten Wissensbasis zu ihrer zweiten Darstellung in dem Vektorraum, zum Zuordnen der Erwähnung zu einer dritten Darstellung in dem Vektorraum, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Erwähnung in einem Textkontext und ihre entsprechende Referenzentität entweder in der ersten Wissensbasis oder der zweiten Wissensbasis umfasst, wobei Trainieren des Modells das Bewerten einer Verlustfunktion umfasst, wobei die Verlustfunktion für jedes Paar ein Maß für eine Ähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und einer Darstellung in dem Vektorraum der Referenzentität in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und mindestens einer Darstellung in dem Vektorraum einer Entität der ersten Wissensbasis oder der zweiten Wissensbasis, die sich von der Referenzentität in dem Paar unterscheidet, umfasst, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Entität der ersten Wissensbasis und eine Entität der zweiten Wissensbasis umfasst, wobei die Entitäten in dem Paar identisch sind, und einen Satz von Paaren, in dem jedes Paar eine Entität der ersten Wissensbasis und eine Entität der zweiten Wissensbasis umfasst, wobei sich die Entitäten in dem Paar voneinander unterscheiden oder unähnlich sind oder nicht identisch sind, wobei die Verlustfunktion ein Maß für eine Ähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar umfasst. Das Modell wird trainiert, um die Erwähnung in dem Vektorraum mit einer von vielen möglichen Entitäten aus zwei verschiedenen Wissensbasen zu verknüpfen. Die Wissensbasis ist beispielsweise ein Wissensgraph. Das sich aus diesem Training ergebende trainierte Modell ist in der Lage, die Entität der ersten Wissensbasis und/oder der zweiten Wissensbasis direkt zu verarbeiten. Das Modell lernt, Entitäten, die der Erwähnung ähnlich sind, Darstellungen, die näher an der Darstellung der Erwähnung liegen als Entitäten, die der Erwähnung unähnlich sind, zuzuordnen. Das Modell lernt, Entitäten zuzuordnen, die einander entsprechen oder einander ähnlich sind oder identisch mit Darstellungen sind, die näher beieinander liegen als Darstellungen der Entitäten, die sich voneinander unterscheiden oder die einander unähnlich sind oder die nicht identisch sind.
Das Verfahren kann Folgendes umfassen: Bereitstellen, in dem Vektorraum, eines Satzes von Darstellungen, wobei der Satz erste Darstellungen umfasst, die jeweils eine Entität der ersten Wissensbasis darstellen, wobei der Satz zweite Darstellungen umfasst, die jeweils eine Entität der zweiten Wissensbasis darstellen, wobei das Verfahren ferner Folgendes umfasst: Bereitstellen der dritten Darstellung in dem Vektorraum, der die Erwähnung darstellt, Auswählen eines Teilsatzes aus dem Satz von Darstellungen, wobei der Teilsatz mindestens eine erste Darstellung und/oder mindestens eine zweite Darstellung umfasst, die der dritten Darstellung ähnlicher ist als andere Darstellungen aus dem Satz von Darstellungen, wodurch die Erwähnung mit der Entität verknüpft wird, die durch eine Darstellung dargestellt wird, die aus dem Teilsatz ausgewählt wurde. Mit dem Verfahren wird die Erwähnung in einem einzigen Schritt mit einer Entität eines dieser Graphen verknüpft.
Auswählen des Teilsatzes kann Folgendes umfassen: Auswählen von mindestens zwei Darstellungen, die der dritten Darstellung ähnlicher sind als andere Darstellungen, Bestimmen eines Werts für die mindestens zwei Darstellungen, wobei der Wert für jede Darstellung der mindestens zwei Darstellungen in Abhängigkeit von der Erwähnung und der Entität, die sie darstellt, bestimmt wird, wobei Auswählen der Darstellung, die den dritten Darstellungen aus dem Teilsatz ähnlicher ist, Klassifizieren der mindestens zwei Darstellungen abhängig von ihrem Wert und Auswählen der Darstellung, die den höheren Wert aufweist, umfasst. Der Teilsatz umfasst Darstellungen von Entitäten, die Kandidaten sind, mit denen die Erwähnung verknüpft werden kann. Der Wert gibt an, welche der Entitäten der beste Kandidat ist. Der Teilsatz kann Entitäten der ersten Wissensbasis, der zweiten Wissensbasis oder beide umfassen. So wird der beste Kandidat aus beiden Wissensbasen in einem einzigen Schritt ausgewählt.
Auswählen des Teilsatzes kann insbesondere Auswählen einer bestimmten Anzahl der Darstellungen umfassen, die näher an der dritten Darstellung liegen als andere Darstellungen oder Darstellungen, die sich innerhalb eines bestimmten Abstands von der dritten Darstellung befinden. Dies beeinflusst die Größe des Teilsatzes und ermöglicht die Steuerung der für die Verarbeitung erforderlichen Rechenressourcen.
Bereitstellen des Satzes von Darstellungen kann Folgendes umfassen: Zuordnen mindestens einer Entität der ersten Wissensbasis mit dem trainierten Modell zu ihrer ersten Darstellung und/oder Zuordnen mindestens einer Entität der zweiten Wissensbasis mit dem trainierten Modell zu ihrer zweiten Darstellung.
Das Verfahren kann Zuordnen der Erwähnung mit dem trainierten Modell zu der dritten Darstellung umfassen.
Bewerten des Maßes für die Ähnlichkeit und/oder des Maßes für die Unähnlichkeit kann Bestimmen eines Abstands zwischen den Darstellungen in dem Paar in dem Vektorraum umfassen.
Die Vorrichtung zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität einer ersten Wissensbasis oder einer zweiten Wissensbasis ist angepasst, um das Verfahren auszuführen. Diese Vorrichtung erzielt die Vorteile des Verfahrens.
Die Vorrichtung kann mindestens einen Prozessor und mindestens einen Speicher zum Speichern von Anweisungen umfassen, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, bewirken, dass die Vorrichtung das Verfahren ausführt.
Das Computerprogramm umfasst computerlesbare Anweisungen, die, wenn sie von einem Computer ausgeführt werden, bewirken, dass der Computer das Verfahren ausführt.
Weitere Ausführungsformen der Erfindung leiten sich aus der folgenden Beschreibung und der Zeichnung ab. In der Zeichnung gilt:

1 veranschaulicht schematisch eine Vorrichtung zum Verknüpfen einer Erwähnung mit einer Entität,
2 veranschaulicht schematisch einen Vektorraum,
3 veranschaulicht ein Flussdiagramm mit Schritten in einem Verfahren zum Verknüpfen der Erwähnung mit der Entität.

1 veranschaulicht schematisch eine Vorrichtung 100. Die Vorrichtung 100 umfasst mindestens einen Prozessor 102 und mindestens einen Speicher 104.
Der mindestens eine Speicher 104 ist in dem Beispiel angepasst, um mindestens zwei Wissensbasen zu speichern.
In 1 sind eine erste Wissensbasis 106-1 und eine zweite Wissensbasis 106-n veranschaulicht. Es können weitere Wissensbasen gespeichert sein. In dem Beispiel handelt es sich bei den Wissensbasen um Wissensgraphen.
Die Wissensbasen umfassen Entitäten. In 1 sind die ersten Entitäten 106-11, ..., 106-1i der ersten Wissensbasis 106-1 und die zweiten Entitäten 106-n1, ..., 106-nm der zweiten Wissensbasis 106-n veranschaulicht.
Die erste Wissensbasis 106-1 umfasst bei manchen Ausführungsformen mindestens i=100 erste Entitäten 106-11, ..., 106-1i. Die zweite Wissensbasis 106-n umfasst bei manchen Ausführungsformen mindestens m=100 zweite Entitäten 106-11, ..., 106-1m.
Die erste Wissensbasis 106-1 umfasst bei manchen weiteren Ausführungsformen mindestens i=1000 erste Entitäten 106-11, ..., 106-1i. Die zweite Wissensbasis 106-n umfasst bei manchen weiteren Ausführungsformen mindestens m=1000 zweite Entitäten 106-11, ..., 106-1m.
Die erste Wissensbasis 106-1 umfasst bei manchen weiteren Ausführungsformen mindestens i=10000 erste Entitäten 106-11, ..., 106-1i. Die zweite Wissensbasis 106-n umfasst bei manchen weiteren Ausführungsformen mindestens m=10000 zweite Entitäten 106-11, ..., 106-1m.
Bei manchen Ausführungsformen umfasst mindestens eine Wissensbasis mindestens 100 Entitäten. Bei manchen weiteren Ausführungsformen umfasst mindestens eine Wissensbasis mindestens 1000 Entitäten. Bei manchen Ausführungsformen umfasst mindestens eine Wissensbasis mindestens 10000 Entitäten.
In dem Beispiel setzen die Wissensbasen Entitäten derselben Wissensbasis paarweise zueinander in Beziehung. Die Wissensbasen umfassen bei manchen Ausführungsformen mindestens 100 Beziehungen. Die Wissensbasen umfassen bei manchen Ausführungsformen mindestens 1000 Beziehungen. Die Wissensbasen umfassen bei manchen Ausführungsformen mindestens 10000 Beziehungen.
In einem Wissensgraphen werden die Entitäten als Scheitelpunkte angeordnet und Beziehungen werden als Kanten in einer Graphenstruktur angeordnet. Bei manchen Ausführungsformen überschreitet bei mindestens einem Wissensgraphen eine Menge von Scheitelpunkten 100 und eine Menge von Kanten überschreitet 100. Bei manchen weiteren Ausführungsformen überschreitet bei mindestens einem Wissensgraphen eine Menge von Scheitelpunkten 1000 und eine Menge von Kanten überschreitet 1000. Bei manchen weiteren Ausführungsformen überschreitet bei mindestens einem Wissensgraphen eine Menge von Scheitelpunkten 10000 und eine Menge von Kanten überschreitet 10000.
Der Speicher 104 ist in dem Beispiel angepasst, um eine Quelle 108 einer Erwähnung 110 zu speichern. Die Quelle 108 kann einen Text umfassen. Die Erwähnung 110 kann eine Erwähnung in textuellem Kontext sein, z. B. im Text.
Die Vorrichtung 100 ist zum Verknüpfen der Erwähnung 110 mit einer Entität 106-11, ..., 106-nm entweder der ersten Wissensbasis 106-1 oder der zweiten Wissensbasis 106-n angepasst. Falls mehr als zwei Wissensbasen verfügbar sind, ist die Vorrichtung 100 angepasst, um die Erwähnung 110 mit einer Entität einer der mehr als zwei Wissensbasen zu verknüpfen. Bevorzugt ist die Vorrichtung 100 zum Verknüpfen der Erwähnung 110 mit einer Entität von mindestens 10 Wissensbasen angepasst. Bevorzugter ist die Vorrichtung zum Verknüpfen der Erwähnung 110 mit einer Entität von mindestens 100 Wissensbasen angepasst.
Der mindestens eine Speicher 104 kann zum Speichern von Anweisungen angepasst sein, die, wenn sie von dem mindestens einen Prozessor 102 ausgeführt werden, bewirken, dass der mindestens eine Prozessor 102 Schritte in einem nachstehend Bezug nehmend auf 3 beschriebenen Verfahren ausführt.
Ein Computerprogramm kann computerlesbare Anweisungen umfassen, die, wenn sie von einem Computer, z. B. der Vorrichtung 100, ausgeführt werden, bewirken, dass der Computer das Verfahren ausführt.
2 veranschaulicht schematisch einen Vektorraum 200. Der Vektorraum 200 umfasst einen Satz von Darstellungen 206-11, ..., 206-nm. Der Satz umfasst erste Darstellungen 206-11, ..., 206-1i, die jeweils eine Entität 106-11, ..., 106-1i der ersten Wissensbasis 106-1 darstellen. Der Satz umfasst zweite Darstellungen 206-n1, ..., 206-nm, die jeweils eine Entität 106-n1, ..., 106-1nm der zweiten Wissensbasis 106-n darstellen.
Der Vektorraum 200 umfasst eine dritte Darstellung 210 der Erwähnung 110.
Die Darstellungen befinden sich in den Beispielvektoren in dem Vektorraum 200. Bei mehr als zwei Wissensbasen umfasst der Vektorraum 200 Darstellungen der Entitäten der mehr als zwei Wissensbasen.
Mit dem Verfahren werden Erwähnungen mit mehreren Wissensgraphen gleichzeitig verknüpft. Diese Wissensgraphen können aus verschiedenen Domänen stammen.
In einem Beispiel stammt der erste Wissensgraph 106-1 aus einer allgemeinen Domäne, wie etwa Wikipedia, und der zweite Wissensgraph 106-n ist domänenspezifisch, wie etwa MITRE ATT&CK für eine Cybersicherheitsdomäne.
Wenn der Text sowohl Erwähnungen aus der allgemeinen Domäne als auch domänenspezifische Erwähnungen umfasst, wird somit die Erwähnung 110 mit einer Entität verknüpft, ohne dass vorher manuell ausgewählt werden muss, aus welchem der Wissensgraphen die Entität stammt. Zudem spart das Verfahren Trainingszeit und -ressourcen. Es erfordert nur eine Feinabstimmung eines Modells der allgemeinen Domäne unter Verwendung der domänenspezifischen Daten.
Dies wird zur automatischen Befüllung von Wissensgraphen erläutert. Bei der automatischen Befüllung von Wissensgraphen ist das Verknüpfen von Entitäten eine wichtige Aufgabe. Das Ziel des Verknüpfens von Entitäten besteht darin, die richtige Entität für die Erwähnung im Text zu finden.
Die Erwähnung kann sich beispielsweise je nach dem Textkontext auf verschiedene Personen beziehen. Das Verknüpfen von Entitäten löst diese Unklarheit unter Berücksichtigung des Textkontexts sowie der Informationen aus den Wissensgraphen, die Kandidaten-Entitäten enthalten.
Spezifische Herausforderungen ergeben sich bei verschiedenen Domänen: Die Textdaten sowie die in ihnen erwähnten Entitäten können aus verschiedenen Domänen stammen. Beispielsweise könnte eine bestimmte Hacker-Gruppe als eine Entität im Wissensgraph MITRE ATT&CK erscheinen, aber nicht in Wikipedia, während ein allgemeineres Konzept wie ein Markenname eines Autos in Wikipedia, aber nicht in MITRE ATT&CK erscheinen könnte. Wenn also ein Satz in dem Text sowohl die Hacker-Gruppe als auch das Auto enthält, können nicht alle Erwähnungen mit Entitäten verknüpft werden, wenn nur einer dieser Wissensgraphen gleichzeitig betrachtet wird.
Das nachstehend beschriebene Verfahren kann bei einem Verknüpfungssystem von Entitäten verwendet werden, das ein Modul zur Kandidatengenerierung und ein Modul zur Kandidatenklassifizierung umfasst. Ein Beispiel dafür ist in Ledell Wu, Fabio Petroni, Martin Josifoski, Sebastian Riedel und Luke Zettlemoyer. Scalable zero-shot entity linking with dense entity retrieval. In Bonnie Webber, Trevor Cohn, Yulan He und Yang Liu, Herausgeber, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, 16.-20. November 2020, Seiten 6397-6407. Association for Computational Linguistics, 2020. Doi: 10.18653/V1/2020.emnlp-main.519 offenbart. Das Modul zur Kandidatengenerierung stellt beispielsweise sowohl die Kandidaten-Entitäten 106-11, ..., 106-nm aus den Wissensgraphen 106-1, ..., 106-n als auch die Erwähnung 110, z. B. die Erwähnung, als die Vektoren in dem Vektorraum 200 dar.
Das Modul zur Kandidatengenerierung kann einen Kandidaten-Encoder zum Zuordnen einer Kandidaten-Entität 106-11, ..., 106-nm zu ihrer entsprechenden ersten oder zweiten Darstellung 206-11, ..., 206-nm umfassen. Der Kandidaten-Encoder kann einen Kontext-Encoder umfassen, um die Erwähnung 110 ihrer entsprechenden dritten Darstellung 210 zuzuordnen.
Das Modul zur Kandidatengenerierung kann angepasst sein, um ihre Ähnlichkeit zu beurteilen, um die nächstliegenden Entitäten für die Erwähnung zu finden.
Das Modul zur Kandidatenklassifizierung kann einen Cross-Encoder umfassen, um eine paarweise Ähnlichkeit zwischen jeder Kandidaten-Entität 106-11, ..., 106-nm und der Erwähnung 110 zu beurteilen. Das Modul zur Kandidatenklassifizierung kann die Kandidaten-Entität 106-11, ..., 106-nm mit dem höchsten Ähnlichkeitswert ausgeben.
Das Modul zur Kandidatengenerierung ist in dem Beispiel ein Modell. Das Modell in diesem Beispiel ist das Modell der allgemeinen Domäne. Das Modell ist mit einer nachstehend beschriebenen Verlustfunktion fein abgestimmt.
3 veranschaulicht ein Flussdiagramm mit Schritten des Verfahrens zum Verknüpfen der Erwähnung 110 mit einer Entität entweder der ersten Wissensbasis 106-1 oder der zweiten Wissensbasis 106-n. Wenn mehr als zwei Wissensbasen verfügbar sind, wird das Verfahren unter gleichzeitiger Berücksichtigung der mehr als zwei Wissensbasen auf dieselbe Weise ausgeführt.
Die Verfahren umfasst einen Schritt 302.
Schritt 302 umfasst Bereitstellen, in dem Vektorraum 200, des Satzes von Darstellungen 206-11, ..., 206-nm.
Der Satz umfasst die ersten Darstellungen 206-11, ..., 206-1i, die jeweils eine Entität 106-11, ..., 106-1i der ersten Wissensbasis 106-1 darstellen.
Der Satz umfasst die zweiten Darstellungen 206-n1, ..., 206-nm, die jeweils eine Entität 106-n1, ..., 106-1nm der zweiten Wissensbasis 106-n darstellen.
Bereitstellen des Satzes von Darstellungen in dem Vektorraum 200 kann Trainieren des Modells umfassen. Das Modell kann vortrainiert werden, bevor das Verfahren ausgeführt wird.
Das Modell ist in einem Beispiel trainiert, um eine Entität der ersten Wissensbasis 106-1 ihrer ersten Darstellung in dem Vektorraum 200 zuzuordnen.
Das Verfahren umfasst Zuordnen von mindestens einer Entität der ersten Wissensbasis 106-1 mit dem trainierten Modell zu ihrer ersten Darstellung.
Das Modell ist in einem Beispiel feinabgestimmt, um eine Entität der zweiten Wissensbasis 106-n ihrer zweiten Darstellung in dem Vektorraum 200 zuzuordnen. Das bedeutet, dass das Modell für das Zuordnen zur ersten Wissensbasis 106-1 trainiert ist und so feinabgestimmt ist, dass es anschließend sowohl zur ersten Wissensbasis 106-1 als auch zur zweiten Wissensbasis 106-n zuordnen kann.
Das Verfahren umfasst Zuordnen von mindestens einer Entität der zweiten Wissensbasis 106-n mit dem trainierten Modell zu ihrer zweiten Darstellung.
Bei mehr als zwei Wissensgraphen kann das Modell entsprechend trainiert oder feinabgestimmt sein, und deren Entitäten können ihren Darstellungen gleichermaßen in dem Vektorraum 200 zugeordnet werden.
Trainieren des Modells kann Trainieren oder Vortrainieren des Modells für ein Zuordnen der Erwähnung 110 zur dritten Darstellung 210 umfassen.
Das Verfahren umfasst Zuordnen der Erwähnung 110 mit dem trainierten Modell zu der dritten Darstellung 210.
In einem Beispiel wird das Modell in Abhängigkeit von Trainingsdaten trainiert.
Die Trainingsdaten umfassen einen Satz von Paaren, in dem jedes Paar eine Erwähnung und eine Entität entweder der ersten Wissensbasis oder der zweiten Wissensbasis umfasst.
Bei mehr als zwei Wissensgraphen können die Trainingsdaten auch Paare aus der Erwähnung und einer Entität aus einem dieser Wissensgraphen umfassen.
Trainieren des Modells in dem Beispiel umfasst Bewerten einer Verlustfunktion.
Die Verlustfunktion kann ein Maß für eine Ähnlichkeit zwischen der Darstellung der Erwähnung und der Darstellung der Entität in dem Paar sein.
Die Verlustfunktion kann ein Maß für eine Unähnlichkeit zwischen der Darstellung in dem Vektorraum einer Erwähnung in dem Paar und mindestens einer Darstellung in dem Vektorraum einer Entität der ersten Wissensbasis oder der zweiten Wissensbasis, die sich von der Entität in dem Paar unterscheidet, umfassen.
Die Trainingsdaten können einen Satz von Paaren umfassen, in welchem jedes Paar eine Entität der ersten Wissensbasis und eine Entität der zweiten Wissensbasis umfasst.
Bei mehr als zwei Wissensgraphen können die Trainingsdaten Paare von Entitäten umfassen, die von den Wissensgraphen verschieden sind.
Die Entitäten in dem Paar in einem Beispiel müssen identisch sein. In diesem Fall umfasst Trainieren des Modells Bewerten eines Maßes für die Ähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar. Die Verlustfunktion kann dieses Maß umfassen. Die Paare werden beispielsweise so bestimmt, dass Darstellungen in dem Vektorraum der Entitäten, die durch das trainierte Modell mit derselben Erwähnung verknüpft werden sollen, in dem Vektorraum näher zueinander stehen als Darstellungen anderer Entitäten, die durch das trainierte Modell nicht mit dieser Erwähnung verknüpft werden sollen.
Die Entitäten in dem Paar unterscheiden sich in einem Beispiel voneinander oder sind unähnlich oder sind nicht identisch. In diesem Fall umfasst Trainieren des Modells Bewerten eines Maßes für eine Unähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar. Die Verlustfunktion kann dieses Maß umfassen. Die Paare werden beispielsweise so bestimmt, dass Darstellungen in dem Vektorraum der Entitäten, die durch das trainierte Modell nicht mit derselben Erwähnung verknüpft werden sollen, in dem Vektorraum weiter voneinander entfernt stehen als Darstellungen anderer Entitäten, die durch das trainierte Modell mit dieser Erwähnung verknüpft werden sollen.
Eine beispielhafte Verlustfunktion für Trainingsdaten T unter Berücksichtigung dieser Maßnahmen wird wie folgt angegeben $\begin{array}{l} L_{θ} = \sum_{m, r \in T} (- v_{m}^{T} v_{r} + l o g \sum_{θ \in C_{e}} e x p (v_{m}^{T} v_{e})) \\ + \sum_{o_{1}, o_{2} \in O} (- v_{o_{1}}^{T} v_{o_{2}} + l o g \sum_{p \in C_{p}} e x p (v_{o_{1}}^{T} v_{p}) + l o g \sum_{q \in C_{q}} e x p (v_{o_{2}}^{T} v_{q})) \end{array}$
wobei θ Parameter des Modells sind, o₁, o₂ ∈ O Entitäten in einem Satz von überlappenden Entitäten θ aus verschiedenen Wissensgraphen sind, die identisch sein müssen, wobei V_m die dritte Darstellung 210 ist, die die Erwähnung 110 darstellt, v_r die Darstellung der Entität eines der Wissensgraphen ist, die mit der Erwähnung 110 gemäß einem Trainingsdatenpaar verknüpft ist, v_θ ein negatives Beispiel ist, d. h. eine Entität aus einem Satz von Kandidaten-Entitäten C_θ, die sich von der Erwähnung 110 gemäß einem Trainingsdatenpaar unterscheidet, $v_{o_{2}}$
eine erste Entität in einem Paar überlappender Entitäten ist, $v_{o_{2}}$
eine zweite Entität in dem Paar überlappender Entitäten ist, v_p,v_q Entitätsdarstellungen von Entitäten aus den Sätzen C_p und C_q sind, die nicht mit den Entitäten o₁, o₂ überlappen.
Das heißt, dass Bewerten des Maßes für die Ähnlichkeit und/oder des Maßes für die Unähnlichkeit Bestimmen eines Abstands zwischen den Darstellungen in Paaren von Darstellungen in dem Vektorraum umfasst.
Gemäß einem Beispiel werden die Parameter θ des Modells mit Trainingsdaten aus der allgemeinen Domäne trainiert und dann mit der Verlustfunktion L_θ feinabgestimmt. Die Verlustfunktion L_θ stellt sicher, dass

(1) die Darstellung 210 für die Erwähnung 110, z. B. die Erwähnung aus dem Text, und die Darstellung der richtigen Entität aus einem der Wissensgraphen nahe beieinander liegen. Dies wird mit einem First-Dot-Produkt $- v_{m}^{T} v_{r}$
erreicht.
(2) die Darstellung der Erwähnung und der anderen, d. h. falschen, Kandidaten-Entitäten aus dem Satz der Kandidaten-Entitäten C_e weiter auseinander liegen. Dies wird mit einem Second-Dot-Produkt $v_{m}^{T} v_{e}$
erreicht.
(3) Entitäten, die in beiden Wissensgraphen auftreten, d. h. überlappende Entitäten, ähnliche Darstellungen erhalten. Dies wird mit einem Third-Dot-Produkt $- v_{o_{1}}^{T} v_{o_{3}}$
erreicht.
(4) die Darstellung einer überlappenden Entität und der anderen Entitäten, die nicht überlappen, d. h. Entitäten aus den Sätzen C_p und C_q, weiter auseinander liegen. Dies wird mit einem Fourth-Dot-Produkt $v_{o_{1}}^{T} v_{p}$
und einem Fifth-Dot-Produkt $v_{o_{3}}^{T} v_{q}$
Verreicht.

Anschließend wird ein Schritt 304 ausgeführt.
Im Schritt 304 umfasst das Verfahren ferner Bereitstellen der dritten Darstellung 210 in dem Vektorraum 200, die die Erwähnung 110 darstellt.
Anschließend wird ein Schritt 306 ausgeführt.
Schritt 306 umfasst Auswählen eines Teilsatzes des Satzes von Darstellungen 206-11, ..., 206-nm.
Der Teilsatz umfasst mindestens eine erste Darstellung und/oder mindestens eine zweite Darstellung, die der dritten Darstellung 210 ähnlicher ist als andere Darstellungen des Satzes von Darstellungen. In dem in 2 veranschaulichten Beispiel umfasst der Teilsatz die Darstellung 206-1i und 206-N2, jedoch nicht die Darstellungen 206-11, 206-12, 206-n1, 206-nm. Bei mehr als zwei Wissensbasen kann der Teilsatz Entitäten aus einer beliebigen von diesen umfassen.
Auswählen des Teilsatzes kann Auswählen von mindestens zwei Darstellungen umfassen, die der dritten Darstellung 210 ähnlicher sind als andere Darstellungen.
Auswählen des Teilsatzes gemäß einem Beispiel umfasst Auswählen von Darstellungen, die näher an der Darstellung der dritten Darstellung 210 als andere Darstellungen in dem Vektorraum 200 liegen. In einem Beispiel wird eine bestimmte Anzahl der Darstellungen ausgewählt.
Auswählen des Teilsatzes gemäß einem Beispiel umfasst Auswählen von Darstellungen in dem Vektorraum 200, die sich innerhalb eines bestimmten Abstands von der dritten Darstellung 210 befinden.
Anschließend wird ein Schritt 308 ausgeführt.
Schritt 308 umfasst Auswählen der Entität zum Verknüpfen. Auswählen der Entität zum Verknüpfen in dem Beispiel umfasst Auswählen einer Darstellung aus dem Teilsatz.
Auswählen der Entität zum Verknüpfen kann Bestimmen eines Werts für die Darstellungen umfassen. In einem Beispiel. Der Wert, der für eine gegebene Entität bestimmt wird, wird abhängig von der Darstellung der Erwähnung 110 und der Darstellung dieser Entität bestimmt.
Auswählen der Entität zum Verknüpfen kann Klassifizieren der Darstellungen abhängig von ihrem Wert umfassen.
In einem Beispiel wird die Darstellung mit dem höchsten Wert ausgewählt.
In einem Beispiel wird die Darstellung ausgewählt, die einen höheren Wert als mindestens eine andere Darstellung aufweist.
In dem Beispiel stammt die Entität, die ausgewählt wird, entweder aus der ersten Wissensbasis 106-1 oder aus der zweiten Wissensbasis 106-n. Bei mehr als zwei Wissensbasen kann die Entität aus einer beliebigen davon stammen.
Anschließend wird ein Schritt 310 ausgeführt.
Schritt 310 umfasst Verknüpfen der Erwähnung 110 mit der Entität, die durch die Darstellung, die aus dem Teilsatz ausgewählt wurde, dargestellt wird.
In einem Beispiel umfasst das Training die folgenden Schritte:

1. Trainieren des Moduls zur Kandidatengenerierung an der allgemeinen Domäne.

Trainieren des Moduls zur Kandidatengenerierung, z. B. des entsprechenden Modells, kann z. B. wie in Scalable zero-shot entity linking with dense entity retrieval beschrieben implementiert werden.

2. Feinabstimmen des Moduls zur Kandidatengenerierung unter Verwendung der Verlustfunktion L_θ und der folgenden Trainingsdaten:
- - Domänenspezifische Daten: Zum Beispiel der Zero-Shot-Entity-Verknüpfungsdatensatz (Zeshel: zero-shot entity linking dataset) aus Fandom: Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin und Honglak Lee. Zero shot entity linking by reading entity descriptions. In Anna Korhonen, David R. Traum und Lluis Märquez, Herausgeber, Proceedings of the 57. Conference of the Association for Computational Linguistics, ACL 2019, Florenz, Italien, 28 Juli - 2. August 2019, Band 1: Längere Aufsätze, Seiten 3449-3460. Association for Computational Linguistics, 2019. Doi: 10.18653/v1/p19-1335. Es kann auch jeder andere domänenspezifische Datensatz verwendet werden.

Diese Daten enthalten mehrere Domänen. Für jede Domain sind Entitäten mit Textbeschreibungen und beschrifteten Erwähnungen vorhanden, die aus Artikeln über diese Domain extrahiert wurden.

- Daten zur Erweiterung der allgemeinen Domäne: beispielsweise der Datensatz der Reddit-Erwähnungen: Nichola Botzer, Yifan Ding und Tim Weninger. Reddit entity linking dataset. Inf. Process. Manag., 58(3):102479, 2021. Doi: 10.1016/j.ipm.2020.102479. Es kann auch jeder andere Datensatz allgemeiner Domänen verwendet werden.

Diese Daten umfassen Erwähnungen, die aus Reddit-Beiträgen und Kommentaren von Reddit-Benutzern extrahiert und an Wikipedia-Entitäten mit Anmerkungen versehen wurden.

- Liste überlappender Entitäten: Diese Liste wird beispielsweise durch Zeichenkettenübereinstimmung von Entitätsnamen, die in den zwei oder mehr Wissensbasen auftreten, oder durch Verwenden eines ausgefeilteren Modells generiert, wie etwa eines Satztransformators, um semantische Ähnlichkeiten zwischen Entitäten aus zwei oder mehr Wissensbasen zu erhalten und einen Schwellenwert für die Ähnlichkeit zu definieren, der verwendet wird, um zu bestimmen, ob zwei Entitäten als überlappend betrachtet werden sollten oder nicht. Der Satztransformator könnte ein Satz-BERT sein, wie bei Nils Reimers und Iryna Gurevych offenbart. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9. International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), S. 3982-3992, Hongkong, China. Association for Computational Linguistics.

3. Trainieren des Moduls zur Kandidatenklassifizierung, z. B. des entsprechenden Modells, an der allgemeinen Domäne, z. B. wie in Scalable zero-shot entity linking with dense entity retrieval beschrieben.

Claims

Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext (110) mit einer Entität (106-11, ..., 106-nm) über Wissensbasen hinweg, gekennzeichnet durch, abhängig von den Trainingsdaten, Trainieren (302) des Modells zum Zuordnen einer Entität einer ersten Wissensbasis (106-1) zu ihrer ersten Darstellung in einem Vektorraum (200), zum Zuordnen einer Entität einer zweiten Wissensbasis (106-n) zu ihrer zweiten Darstellung in dem Vektorraum (200), zum Zuordnen der Erwähnung zu einer dritten Darstellung in dem Vektorraum, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Erwähnung in einem Textkontext und ihre entsprechende Referenzentität entweder in der ersten Wissensbasis (106-1) oder der zweiten Wissensbasis (106-n) umfasst, wobei Trainieren des Modells Bewerten einer Verlustfunktion umfasst, wobei die Verlustfunktion für jedes Paar ein Maß für eine Ähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und einer Darstellung in dem Vektorraum der Referenzentität in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und mindestens einer Darstellung in dem Vektorraum einer Entität der ersten Wissensbasis (106-1) oder der zweiten Wissensbasis (106-n), die sich von der Referenzentität in dem Paar unterscheidet, umfasst, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Entität der ersten Wissensbasis (106-1) und eine Entität der zweiten Wissensbasis (106-n) umfasst, wobei die Entitäten in dem Paar identisch sind, und einen Satz von Paaren, in dem jedes Paar eine Entität der ersten Wissensbasis (106-1) und eine Entität der zweiten Wissensbasis (106-n) umfasst, wobei sich die Entitäten in dem Paar voneinander unterscheiden oder unähnlich sind oder nicht identisch sind, wobei die Verlustfunktion ein Maß für eine Ähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar umfasst.
Verfahren nach Anspruch 1, gekennzeichnet durch Bereitstellen (302), in dem Vektorraum (200), eines Satzes von Darstellungen (206-11, ..., 206-nm), wobei der Satz erste Darstellungen (206-11, ..., 206-1i) umfasst, die jeweils eine Entität (106-11, ..., 106-1i) der ersten Wissensbasis (106-1) darstellen, wobei der Satz zweite Darstellungen (206-n1, ..., 206-nm) umfasst, die jeweils eine Entität (106-n1, ..., 106-nm) der zweiten Wissensbasis (106-n) darstellen, wobei das Verfahren ferner Folgendes umfasst: Bereitstellen (304) der dritten Darstellung (210) in dem Vektorraum (200), der die Erwähnung (110) darstellt, Auswählen (306) eines Teilsatzes aus dem Satz von Darstellungen (206-11, ..., 206-nm), wobei der Teilsatz mindestens eine erste Darstellung (206-1i) und/oder mindestens eine zweite Darstellung (206-n2) umfasst, die der dritten Darstellung (210) ähnlicher ist als andere Darstellungen (206-11, 206-12, 206-n1, 206-nm) aus dem Satz von Darstellungen, Verknüpfen (310) der Erwähnung (110) mit der Entität, die durch eine Darstellung dargestellt wird, die aus dem Teilsatz ausgewählt (308) wurde.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass Auswählen (306) des Teilsatzes Folgendes umfasst: Auswählen von mindestens zwei Darstellungen, die der dritten Darstellung (210) ähnlicher sind als andere Darstellungen, Bestimmen eines Werts für die mindestens zwei Darstellungen, wobei der Wert für jede Darstellung der mindestens zwei Darstellungen in Abhängigkeit von der Erwähnung und der Entität, die sie darstellt, bestimmt wird, wobei Auswählen (308) der Darstellung, die den dritten Darstellungen (210) aus dem Teilsatz ähnlicher ist, Klassifizieren der mindestens zwei Darstellungen abhängig von ihrem Wert und Auswählen der Darstellung, die den höheren Wert aufweist, umfasst.
Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass Auswählen (306) des Teilsatzes insbesondere Auswählen einer gegebenen Anzahl der Darstellungen umfasst, die näher an der dritten Darstellung liegen als andere Darstellungen oder Darstellungen, die sich innerhalb eines gegebenen Abstands von der dritten Darstellung befinden.
Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass Bereitstellen (302) des Satzes von Darstellungen Zuordnen mindestens einer Entität der ersten Wissensbasis (106-1) mit dem trainierten Modell zu ihrer ersten Darstellung und/oder Zuordnen mindestens einer Entität der zweiten Wissensbasis (106-n) mit dem trainierten Modell zu ihrer zweiten Darstellung umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Zuordnen der Erwähnung mit dem trainierten Modell zu der dritten Darstellung.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Bewerten des Maßes für die Ähnlichkeit und/oder des Maßes für die Unähnlichkeit Bestimmen eines Abstands zwischen den Darstellungen in dem Paar in dem Vektorraum umfasst.
Vorrichtung (100) zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext (110) mit einer Entität (106-11, ..., 106-nm) über Wissensbasen hinweg, dadurch gekennzeichnet, dass die Vorrichtung (100) angepasst ist, um das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
Vorrichtung (100) nach Anspruch 8, dadurch gekennzeichnet, dass die Vorrichtung (100) mindestens einen Prozessor (102) und mindestens einen Speicher (104) zum Speichern von Anweisungen umfasst, die, wenn sie von dem mindestens einen Prozessor (102) ausgeführt werden, bewirken, dass die Vorrichtung das Verfahren nach einem der Ansprüche 1 bis 7 ausführt.
Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Anweisungen umfasst, die, wenn sie von einem Computer ausgeführt werden, bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 7 ausführt.