DE102022202983A1 - Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg - Google Patents

Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg Download PDF

Info

Publication number
DE102022202983A1
DE102022202983A1 DE102022202983.6A DE102022202983A DE102022202983A1 DE 102022202983 A1 DE102022202983 A1 DE 102022202983A1 DE 102022202983 A DE102022202983 A DE 102022202983A DE 102022202983 A1 DE102022202983 A1 DE 102022202983A1
Authority
DE
Germany
Prior art keywords
entity
representation
representations
knowledge base
mention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022202983.6A
Other languages
English (en)
Inventor
Mohamed Gad-Elrab
Jannik Stroetgen
Heike Adel-Vu
Hassan Soliman
Dragan Milchevski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022202983.6A priority Critical patent/DE102022202983A1/de
Priority to US18/178,373 priority patent/US20230306283A1/en
Priority to CN202310302848.9A priority patent/CN116805009A/zh
Priority to JP2023048046A priority patent/JP2023143880A/ja
Publication of DE102022202983A1 publication Critical patent/DE102022202983A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext (110) mit einer Entität (106-11, ..., 106-nm) über Wissensbasen hinweg, gekennzeichnet durch, abhängig von den Trainingsdaten, Trainieren (302) des Modells zum Zuordnen einer Entität einer ersten Wissensbasis (106-1) zu ihrer ersten Darstellung in einem Vektorraum, zum Zuordnen einer Entität einer zweiten Wissensbasis (106-n) zu ihrer zweiten Darstellung in dem Vektorraum, zum Zuordnen der Erwähnung zu einer dritten Darstellung in dem Vektorraum, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Erwähnung in einem Textkontext und ihre entsprechende Referenzentität entweder in der ersten Wissensbasis (106-1) oder der zweiten Wissensbasis (106-n) umfasst.

Description

  • Stand der Technik
  • Die Erfindung betrifft eine Vorrichtung und ein Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg.
  • Beim Verknüpfen von Entitäten werden Erwähnungen in der Regel mit einem Hintergrund-Wissensgraphen aus einer spezifischen Domäne verknüpft. Ansätze aus dem Stand der Technik, die mehrere Domänen ansprechen, bearbeiten das Problem des Verknüpfens mit einem anderen Wissensgraphen durch Zero-Shot-Lernen.
  • Ledell Wu, Fabio Petroni, Martin Josifoski, Sebastian Riedel und Luke Zettlemoyer. Scalable zero-shot entity linking with dense entity retrieval. In Bonnie Webber, Trevor Cohn, Yulan He und Yang Liu, Herausgeber, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, 16.-20. November 2020, Seiten 6397-6407. Association for Computational Linguistics, 2020. Doi: 10.18653/vl/2020.emnlp-main.519 offenbaren einen Ansatz nach dem Stand der Technik.
  • Für diesen Ansatz muss jedoch ein Benutzer oder eine Maschine entscheiden, mit welchem Wissensgraphen die Erwähnungen verknüpft werden sollen, d. h. er/sie muss die fragliche Domäne kennen. Angesichts eines neuen Textes kann dies sehr wohl eine Herausforderung darstellen oder sehr viel Zeit und Rechenressourcen erfordern.
  • Offenbarung der Erfindung
  • Das Verfahren, die Vorrichtung und das Computerprogramm gemäß den unabhängigen Ansprüchen verbessern das Verknüpfen von Entitäten insbesondere bei großformatigen Problemen, bei denen viele, insbesondere Millionen, möglicher Entitäten für jede Erwähnung zu berücksichtigen sind.
  • Das Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext mit einer Entität über Wissensbasen hinweg umfasst, abhängig von den Trainingsdaten, Trainieren des Modells zum Zuordnen einer Entität einer ersten Wissensbasis zu ihrer ersten Darstellung in einem Vektorraum, zum Zuordnen einer Entität einer zweiten Wissensbasis zu ihrer zweiten Darstellung in dem Vektorraum, zum Zuordnen der Erwähnung zu einer dritten Darstellung in dem Vektorraum, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Erwähnung in einem Textkontext und ihre entsprechende Referenzentität entweder in der ersten Wissensbasis oder der zweiten Wissensbasis umfasst, wobei Trainieren des Modells das Bewerten einer Verlustfunktion umfasst, wobei die Verlustfunktion für jedes Paar ein Maß für eine Ähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und einer Darstellung in dem Vektorraum der Referenzentität in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und mindestens einer Darstellung in dem Vektorraum einer Entität der ersten Wissensbasis oder der zweiten Wissensbasis, die sich von der Referenzentität in dem Paar unterscheidet, umfasst, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Entität der ersten Wissensbasis und eine Entität der zweiten Wissensbasis umfasst, wobei die Entitäten in dem Paar identisch sind, und einen Satz von Paaren, in dem jedes Paar eine Entität der ersten Wissensbasis und eine Entität der zweiten Wissensbasis umfasst, wobei sich die Entitäten in dem Paar voneinander unterscheiden oder unähnlich sind oder nicht identisch sind, wobei die Verlustfunktion ein Maß für eine Ähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar umfasst. Das Modell wird trainiert, um die Erwähnung in dem Vektorraum mit einer von vielen möglichen Entitäten aus zwei verschiedenen Wissensbasen zu verknüpfen. Die Wissensbasis ist beispielsweise ein Wissensgraph. Das sich aus diesem Training ergebende trainierte Modell ist in der Lage, die Entität der ersten Wissensbasis und/oder der zweiten Wissensbasis direkt zu verarbeiten. Das Modell lernt, Entitäten, die der Erwähnung ähnlich sind, Darstellungen, die näher an der Darstellung der Erwähnung liegen als Entitäten, die der Erwähnung unähnlich sind, zuzuordnen. Das Modell lernt, Entitäten zuzuordnen, die einander entsprechen oder einander ähnlich sind oder identisch mit Darstellungen sind, die näher beieinander liegen als Darstellungen der Entitäten, die sich voneinander unterscheiden oder die einander unähnlich sind oder die nicht identisch sind.
  • Das Verfahren kann Folgendes umfassen: Bereitstellen, in dem Vektorraum, eines Satzes von Darstellungen, wobei der Satz erste Darstellungen umfasst, die jeweils eine Entität der ersten Wissensbasis darstellen, wobei der Satz zweite Darstellungen umfasst, die jeweils eine Entität der zweiten Wissensbasis darstellen, wobei das Verfahren ferner Folgendes umfasst: Bereitstellen der dritten Darstellung in dem Vektorraum, der die Erwähnung darstellt, Auswählen eines Teilsatzes aus dem Satz von Darstellungen, wobei der Teilsatz mindestens eine erste Darstellung und/oder mindestens eine zweite Darstellung umfasst, die der dritten Darstellung ähnlicher ist als andere Darstellungen aus dem Satz von Darstellungen, wodurch die Erwähnung mit der Entität verknüpft wird, die durch eine Darstellung dargestellt wird, die aus dem Teilsatz ausgewählt wurde. Mit dem Verfahren wird die Erwähnung in einem einzigen Schritt mit einer Entität eines dieser Graphen verknüpft.
  • Auswählen des Teilsatzes kann Folgendes umfassen: Auswählen von mindestens zwei Darstellungen, die der dritten Darstellung ähnlicher sind als andere Darstellungen, Bestimmen eines Werts für die mindestens zwei Darstellungen, wobei der Wert für jede Darstellung der mindestens zwei Darstellungen in Abhängigkeit von der Erwähnung und der Entität, die sie darstellt, bestimmt wird, wobei Auswählen der Darstellung, die den dritten Darstellungen aus dem Teilsatz ähnlicher ist, Klassifizieren der mindestens zwei Darstellungen abhängig von ihrem Wert und Auswählen der Darstellung, die den höheren Wert aufweist, umfasst. Der Teilsatz umfasst Darstellungen von Entitäten, die Kandidaten sind, mit denen die Erwähnung verknüpft werden kann. Der Wert gibt an, welche der Entitäten der beste Kandidat ist. Der Teilsatz kann Entitäten der ersten Wissensbasis, der zweiten Wissensbasis oder beide umfassen. So wird der beste Kandidat aus beiden Wissensbasen in einem einzigen Schritt ausgewählt.
  • Auswählen des Teilsatzes kann insbesondere Auswählen einer bestimmten Anzahl der Darstellungen umfassen, die näher an der dritten Darstellung liegen als andere Darstellungen oder Darstellungen, die sich innerhalb eines bestimmten Abstands von der dritten Darstellung befinden. Dies beeinflusst die Größe des Teilsatzes und ermöglicht die Steuerung der für die Verarbeitung erforderlichen Rechenressourcen.
  • Bereitstellen des Satzes von Darstellungen kann Folgendes umfassen: Zuordnen mindestens einer Entität der ersten Wissensbasis mit dem trainierten Modell zu ihrer ersten Darstellung und/oder Zuordnen mindestens einer Entität der zweiten Wissensbasis mit dem trainierten Modell zu ihrer zweiten Darstellung.
  • Das Verfahren kann Zuordnen der Erwähnung mit dem trainierten Modell zu der dritten Darstellung umfassen.
  • Bewerten des Maßes für die Ähnlichkeit und/oder des Maßes für die Unähnlichkeit kann Bestimmen eines Abstands zwischen den Darstellungen in dem Paar in dem Vektorraum umfassen.
  • Die Vorrichtung zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität einer ersten Wissensbasis oder einer zweiten Wissensbasis ist angepasst, um das Verfahren auszuführen. Diese Vorrichtung erzielt die Vorteile des Verfahrens.
  • Die Vorrichtung kann mindestens einen Prozessor und mindestens einen Speicher zum Speichern von Anweisungen umfassen, die, wenn sie von dem mindestens einen Prozessor ausgeführt werden, bewirken, dass die Vorrichtung das Verfahren ausführt.
  • Das Computerprogramm umfasst computerlesbare Anweisungen, die, wenn sie von einem Computer ausgeführt werden, bewirken, dass der Computer das Verfahren ausführt.
  • Weitere Ausführungsformen der Erfindung leiten sich aus der folgenden Beschreibung und der Zeichnung ab. In der Zeichnung gilt:
    • 1 veranschaulicht schematisch eine Vorrichtung zum Verknüpfen einer Erwähnung mit einer Entität,
    • 2 veranschaulicht schematisch einen Vektorraum,
    • 3 veranschaulicht ein Flussdiagramm mit Schritten in einem Verfahren zum Verknüpfen der Erwähnung mit der Entität.
  • 1 veranschaulicht schematisch eine Vorrichtung 100. Die Vorrichtung 100 umfasst mindestens einen Prozessor 102 und mindestens einen Speicher 104.
  • Der mindestens eine Speicher 104 ist in dem Beispiel angepasst, um mindestens zwei Wissensbasen zu speichern.
  • In 1 sind eine erste Wissensbasis 106-1 und eine zweite Wissensbasis 106-n veranschaulicht. Es können weitere Wissensbasen gespeichert sein. In dem Beispiel handelt es sich bei den Wissensbasen um Wissensgraphen.
  • Die Wissensbasen umfassen Entitäten. In 1 sind die ersten Entitäten 106-11, ..., 106-1i der ersten Wissensbasis 106-1 und die zweiten Entitäten 106-n1, ..., 106-nm der zweiten Wissensbasis 106-n veranschaulicht.
  • Die erste Wissensbasis 106-1 umfasst bei manchen Ausführungsformen mindestens i=100 erste Entitäten 106-11, ..., 106-1i. Die zweite Wissensbasis 106-n umfasst bei manchen Ausführungsformen mindestens m=100 zweite Entitäten 106-11, ..., 106-1m.
  • Die erste Wissensbasis 106-1 umfasst bei manchen weiteren Ausführungsformen mindestens i=1000 erste Entitäten 106-11, ..., 106-1i. Die zweite Wissensbasis 106-n umfasst bei manchen weiteren Ausführungsformen mindestens m=1000 zweite Entitäten 106-11, ..., 106-1m.
  • Die erste Wissensbasis 106-1 umfasst bei manchen weiteren Ausführungsformen mindestens i=10000 erste Entitäten 106-11, ..., 106-1i. Die zweite Wissensbasis 106-n umfasst bei manchen weiteren Ausführungsformen mindestens m=10000 zweite Entitäten 106-11, ..., 106-1m.
  • Bei manchen Ausführungsformen umfasst mindestens eine Wissensbasis mindestens 100 Entitäten. Bei manchen weiteren Ausführungsformen umfasst mindestens eine Wissensbasis mindestens 1000 Entitäten. Bei manchen Ausführungsformen umfasst mindestens eine Wissensbasis mindestens 10000 Entitäten.
  • In dem Beispiel setzen die Wissensbasen Entitäten derselben Wissensbasis paarweise zueinander in Beziehung. Die Wissensbasen umfassen bei manchen Ausführungsformen mindestens 100 Beziehungen. Die Wissensbasen umfassen bei manchen Ausführungsformen mindestens 1000 Beziehungen. Die Wissensbasen umfassen bei manchen Ausführungsformen mindestens 10000 Beziehungen.
  • In einem Wissensgraphen werden die Entitäten als Scheitelpunkte angeordnet und Beziehungen werden als Kanten in einer Graphenstruktur angeordnet. Bei manchen Ausführungsformen überschreitet bei mindestens einem Wissensgraphen eine Menge von Scheitelpunkten 100 und eine Menge von Kanten überschreitet 100. Bei manchen weiteren Ausführungsformen überschreitet bei mindestens einem Wissensgraphen eine Menge von Scheitelpunkten 1000 und eine Menge von Kanten überschreitet 1000. Bei manchen weiteren Ausführungsformen überschreitet bei mindestens einem Wissensgraphen eine Menge von Scheitelpunkten 10000 und eine Menge von Kanten überschreitet 10000.
  • Der Speicher 104 ist in dem Beispiel angepasst, um eine Quelle 108 einer Erwähnung 110 zu speichern. Die Quelle 108 kann einen Text umfassen. Die Erwähnung 110 kann eine Erwähnung in textuellem Kontext sein, z. B. im Text.
  • Die Vorrichtung 100 ist zum Verknüpfen der Erwähnung 110 mit einer Entität 106-11, ..., 106-nm entweder der ersten Wissensbasis 106-1 oder der zweiten Wissensbasis 106-n angepasst. Falls mehr als zwei Wissensbasen verfügbar sind, ist die Vorrichtung 100 angepasst, um die Erwähnung 110 mit einer Entität einer der mehr als zwei Wissensbasen zu verknüpfen. Bevorzugt ist die Vorrichtung 100 zum Verknüpfen der Erwähnung 110 mit einer Entität von mindestens 10 Wissensbasen angepasst. Bevorzugter ist die Vorrichtung zum Verknüpfen der Erwähnung 110 mit einer Entität von mindestens 100 Wissensbasen angepasst.
  • Der mindestens eine Speicher 104 kann zum Speichern von Anweisungen angepasst sein, die, wenn sie von dem mindestens einen Prozessor 102 ausgeführt werden, bewirken, dass der mindestens eine Prozessor 102 Schritte in einem nachstehend Bezug nehmend auf 3 beschriebenen Verfahren ausführt.
  • Ein Computerprogramm kann computerlesbare Anweisungen umfassen, die, wenn sie von einem Computer, z. B. der Vorrichtung 100, ausgeführt werden, bewirken, dass der Computer das Verfahren ausführt.
  • 2 veranschaulicht schematisch einen Vektorraum 200. Der Vektorraum 200 umfasst einen Satz von Darstellungen 206-11, ..., 206-nm. Der Satz umfasst erste Darstellungen 206-11, ..., 206-1i, die jeweils eine Entität 106-11, ..., 106-1i der ersten Wissensbasis 106-1 darstellen. Der Satz umfasst zweite Darstellungen 206-n1, ..., 206-nm, die jeweils eine Entität 106-n1, ..., 106-1nm der zweiten Wissensbasis 106-n darstellen.
  • Der Vektorraum 200 umfasst eine dritte Darstellung 210 der Erwähnung 110.
  • Die Darstellungen befinden sich in den Beispielvektoren in dem Vektorraum 200. Bei mehr als zwei Wissensbasen umfasst der Vektorraum 200 Darstellungen der Entitäten der mehr als zwei Wissensbasen.
  • Mit dem Verfahren werden Erwähnungen mit mehreren Wissensgraphen gleichzeitig verknüpft. Diese Wissensgraphen können aus verschiedenen Domänen stammen.
  • In einem Beispiel stammt der erste Wissensgraph 106-1 aus einer allgemeinen Domäne, wie etwa Wikipedia, und der zweite Wissensgraph 106-n ist domänenspezifisch, wie etwa MITRE ATT&CK für eine Cybersicherheitsdomäne.
  • Wenn der Text sowohl Erwähnungen aus der allgemeinen Domäne als auch domänenspezifische Erwähnungen umfasst, wird somit die Erwähnung 110 mit einer Entität verknüpft, ohne dass vorher manuell ausgewählt werden muss, aus welchem der Wissensgraphen die Entität stammt. Zudem spart das Verfahren Trainingszeit und -ressourcen. Es erfordert nur eine Feinabstimmung eines Modells der allgemeinen Domäne unter Verwendung der domänenspezifischen Daten.
  • Dies wird zur automatischen Befüllung von Wissensgraphen erläutert. Bei der automatischen Befüllung von Wissensgraphen ist das Verknüpfen von Entitäten eine wichtige Aufgabe. Das Ziel des Verknüpfens von Entitäten besteht darin, die richtige Entität für die Erwähnung im Text zu finden.
  • Die Erwähnung kann sich beispielsweise je nach dem Textkontext auf verschiedene Personen beziehen. Das Verknüpfen von Entitäten löst diese Unklarheit unter Berücksichtigung des Textkontexts sowie der Informationen aus den Wissensgraphen, die Kandidaten-Entitäten enthalten.
  • Spezifische Herausforderungen ergeben sich bei verschiedenen Domänen: Die Textdaten sowie die in ihnen erwähnten Entitäten können aus verschiedenen Domänen stammen. Beispielsweise könnte eine bestimmte Hacker-Gruppe als eine Entität im Wissensgraph MITRE ATT&CK erscheinen, aber nicht in Wikipedia, während ein allgemeineres Konzept wie ein Markenname eines Autos in Wikipedia, aber nicht in MITRE ATT&CK erscheinen könnte. Wenn also ein Satz in dem Text sowohl die Hacker-Gruppe als auch das Auto enthält, können nicht alle Erwähnungen mit Entitäten verknüpft werden, wenn nur einer dieser Wissensgraphen gleichzeitig betrachtet wird.
  • Das nachstehend beschriebene Verfahren kann bei einem Verknüpfungssystem von Entitäten verwendet werden, das ein Modul zur Kandidatengenerierung und ein Modul zur Kandidatenklassifizierung umfasst. Ein Beispiel dafür ist in Ledell Wu, Fabio Petroni, Martin Josifoski, Sebastian Riedel und Luke Zettlemoyer. Scalable zero-shot entity linking with dense entity retrieval. In Bonnie Webber, Trevor Cohn, Yulan He und Yang Liu, Herausgeber, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, 16.-20. November 2020, Seiten 6397-6407. Association for Computational Linguistics, 2020. Doi: 10.18653/V1/2020.emnlp-main.519 offenbart. Das Modul zur Kandidatengenerierung stellt beispielsweise sowohl die Kandidaten-Entitäten 106-11, ..., 106-nm aus den Wissensgraphen 106-1, ..., 106-n als auch die Erwähnung 110, z. B. die Erwähnung, als die Vektoren in dem Vektorraum 200 dar.
  • Das Modul zur Kandidatengenerierung kann einen Kandidaten-Encoder zum Zuordnen einer Kandidaten-Entität 106-11, ..., 106-nm zu ihrer entsprechenden ersten oder zweiten Darstellung 206-11, ..., 206-nm umfassen. Der Kandidaten-Encoder kann einen Kontext-Encoder umfassen, um die Erwähnung 110 ihrer entsprechenden dritten Darstellung 210 zuzuordnen.
  • Das Modul zur Kandidatengenerierung kann angepasst sein, um ihre Ähnlichkeit zu beurteilen, um die nächstliegenden Entitäten für die Erwähnung zu finden.
  • Das Modul zur Kandidatenklassifizierung kann einen Cross-Encoder umfassen, um eine paarweise Ähnlichkeit zwischen jeder Kandidaten-Entität 106-11, ..., 106-nm und der Erwähnung 110 zu beurteilen. Das Modul zur Kandidatenklassifizierung kann die Kandidaten-Entität 106-11, ..., 106-nm mit dem höchsten Ähnlichkeitswert ausgeben.
  • Das Modul zur Kandidatengenerierung ist in dem Beispiel ein Modell. Das Modell in diesem Beispiel ist das Modell der allgemeinen Domäne. Das Modell ist mit einer nachstehend beschriebenen Verlustfunktion fein abgestimmt.
  • 3 veranschaulicht ein Flussdiagramm mit Schritten des Verfahrens zum Verknüpfen der Erwähnung 110 mit einer Entität entweder der ersten Wissensbasis 106-1 oder der zweiten Wissensbasis 106-n. Wenn mehr als zwei Wissensbasen verfügbar sind, wird das Verfahren unter gleichzeitiger Berücksichtigung der mehr als zwei Wissensbasen auf dieselbe Weise ausgeführt.
  • Die Verfahren umfasst einen Schritt 302.
  • Schritt 302 umfasst Bereitstellen, in dem Vektorraum 200, des Satzes von Darstellungen 206-11, ..., 206-nm.
  • Der Satz umfasst die ersten Darstellungen 206-11, ..., 206-1i, die jeweils eine Entität 106-11, ..., 106-1i der ersten Wissensbasis 106-1 darstellen.
  • Der Satz umfasst die zweiten Darstellungen 206-n1, ..., 206-nm, die jeweils eine Entität 106-n1, ..., 106-1nm der zweiten Wissensbasis 106-n darstellen.
  • Bereitstellen des Satzes von Darstellungen in dem Vektorraum 200 kann Trainieren des Modells umfassen. Das Modell kann vortrainiert werden, bevor das Verfahren ausgeführt wird.
  • Das Modell ist in einem Beispiel trainiert, um eine Entität der ersten Wissensbasis 106-1 ihrer ersten Darstellung in dem Vektorraum 200 zuzuordnen.
  • Das Verfahren umfasst Zuordnen von mindestens einer Entität der ersten Wissensbasis 106-1 mit dem trainierten Modell zu ihrer ersten Darstellung.
  • Das Modell ist in einem Beispiel feinabgestimmt, um eine Entität der zweiten Wissensbasis 106-n ihrer zweiten Darstellung in dem Vektorraum 200 zuzuordnen. Das bedeutet, dass das Modell für das Zuordnen zur ersten Wissensbasis 106-1 trainiert ist und so feinabgestimmt ist, dass es anschließend sowohl zur ersten Wissensbasis 106-1 als auch zur zweiten Wissensbasis 106-n zuordnen kann.
  • Das Verfahren umfasst Zuordnen von mindestens einer Entität der zweiten Wissensbasis 106-n mit dem trainierten Modell zu ihrer zweiten Darstellung.
  • Bei mehr als zwei Wissensgraphen kann das Modell entsprechend trainiert oder feinabgestimmt sein, und deren Entitäten können ihren Darstellungen gleichermaßen in dem Vektorraum 200 zugeordnet werden.
  • Trainieren des Modells kann Trainieren oder Vortrainieren des Modells für ein Zuordnen der Erwähnung 110 zur dritten Darstellung 210 umfassen.
  • Das Verfahren umfasst Zuordnen der Erwähnung 110 mit dem trainierten Modell zu der dritten Darstellung 210.
  • In einem Beispiel wird das Modell in Abhängigkeit von Trainingsdaten trainiert.
  • Die Trainingsdaten umfassen einen Satz von Paaren, in dem jedes Paar eine Erwähnung und eine Entität entweder der ersten Wissensbasis oder der zweiten Wissensbasis umfasst.
  • Bei mehr als zwei Wissensgraphen können die Trainingsdaten auch Paare aus der Erwähnung und einer Entität aus einem dieser Wissensgraphen umfassen.
  • Trainieren des Modells in dem Beispiel umfasst Bewerten einer Verlustfunktion.
  • Die Verlustfunktion kann ein Maß für eine Ähnlichkeit zwischen der Darstellung der Erwähnung und der Darstellung der Entität in dem Paar sein.
  • Die Verlustfunktion kann ein Maß für eine Unähnlichkeit zwischen der Darstellung in dem Vektorraum einer Erwähnung in dem Paar und mindestens einer Darstellung in dem Vektorraum einer Entität der ersten Wissensbasis oder der zweiten Wissensbasis, die sich von der Entität in dem Paar unterscheidet, umfassen.
  • Die Trainingsdaten können einen Satz von Paaren umfassen, in welchem jedes Paar eine Entität der ersten Wissensbasis und eine Entität der zweiten Wissensbasis umfasst.
  • Bei mehr als zwei Wissensgraphen können die Trainingsdaten Paare von Entitäten umfassen, die von den Wissensgraphen verschieden sind.
  • Die Entitäten in dem Paar in einem Beispiel müssen identisch sein. In diesem Fall umfasst Trainieren des Modells Bewerten eines Maßes für die Ähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar. Die Verlustfunktion kann dieses Maß umfassen. Die Paare werden beispielsweise so bestimmt, dass Darstellungen in dem Vektorraum der Entitäten, die durch das trainierte Modell mit derselben Erwähnung verknüpft werden sollen, in dem Vektorraum näher zueinander stehen als Darstellungen anderer Entitäten, die durch das trainierte Modell nicht mit dieser Erwähnung verknüpft werden sollen.
  • Die Entitäten in dem Paar unterscheiden sich in einem Beispiel voneinander oder sind unähnlich oder sind nicht identisch. In diesem Fall umfasst Trainieren des Modells Bewerten eines Maßes für eine Unähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar. Die Verlustfunktion kann dieses Maß umfassen. Die Paare werden beispielsweise so bestimmt, dass Darstellungen in dem Vektorraum der Entitäten, die durch das trainierte Modell nicht mit derselben Erwähnung verknüpft werden sollen, in dem Vektorraum weiter voneinander entfernt stehen als Darstellungen anderer Entitäten, die durch das trainierte Modell mit dieser Erwähnung verknüpft werden sollen.
  • Eine beispielhafte Verlustfunktion für Trainingsdaten T unter Berücksichtigung dieser Maßnahmen wird wie folgt angegeben L θ = m , r T ( v m T v r + l o g θ C e e x p ( v m T v e ) )   + o 1 , o 2 O ( v o 1 T v o 2 + l o g p C p e x p ( v o 1 T v p ) + l o g q C q e x p ( v o 2 T v q ) )
    Figure DE102022202983A1_0001
    wobei θ Parameter des Modells sind, o1, o2 ∈ O Entitäten in einem Satz von überlappenden Entitäten θ aus verschiedenen Wissensgraphen sind, die identisch sein müssen, wobei Vm die dritte Darstellung 210 ist, die die Erwähnung 110 darstellt, vr die Darstellung der Entität eines der Wissensgraphen ist, die mit der Erwähnung 110 gemäß einem Trainingsdatenpaar verknüpft ist, vθ ein negatives Beispiel ist, d. h. eine Entität aus einem Satz von Kandidaten-Entitäten Cθ, die sich von der Erwähnung 110 gemäß einem Trainingsdatenpaar unterscheidet, v o 2
    Figure DE102022202983A1_0002
    eine erste Entität in einem Paar überlappender Entitäten ist, v o 2
    Figure DE102022202983A1_0003
    eine zweite Entität in dem Paar überlappender Entitäten ist, vp,vq Entitätsdarstellungen von Entitäten aus den Sätzen Cp und Cq sind, die nicht mit den Entitäten o1, o2 überlappen.
  • Das heißt, dass Bewerten des Maßes für die Ähnlichkeit und/oder des Maßes für die Unähnlichkeit Bestimmen eines Abstands zwischen den Darstellungen in Paaren von Darstellungen in dem Vektorraum umfasst.
  • Gemäß einem Beispiel werden die Parameter θ des Modells mit Trainingsdaten aus der allgemeinen Domäne trainiert und dann mit der Verlustfunktion Lθ feinabgestimmt. Die Verlustfunktion Lθ stellt sicher, dass
    • (1) die Darstellung 210 für die Erwähnung 110, z. B. die Erwähnung aus dem Text, und die Darstellung der richtigen Entität aus einem der Wissensgraphen nahe beieinander liegen. Dies wird mit einem First-Dot-Produkt v m T v r
      Figure DE102022202983A1_0004
      erreicht.
    • (2) die Darstellung der Erwähnung und der anderen, d. h. falschen, Kandidaten-Entitäten aus dem Satz der Kandidaten-Entitäten Ce weiter auseinander liegen. Dies wird mit einem Second-Dot-Produkt v m T v e
      Figure DE102022202983A1_0005
      erreicht.
    • (3) Entitäten, die in beiden Wissensgraphen auftreten, d. h. überlappende Entitäten, ähnliche Darstellungen erhalten. Dies wird mit einem Third-Dot-Produkt v o 1 T v o 3
      Figure DE102022202983A1_0006
      erreicht.
    • (4) die Darstellung einer überlappenden Entität und der anderen Entitäten, die nicht überlappen, d. h. Entitäten aus den Sätzen Cp und Cq, weiter auseinander liegen. Dies wird mit einem Fourth-Dot-Produkt v o 1 T v p
      Figure DE102022202983A1_0007
      und einem Fifth-Dot-Produkt v o 3 T v q
      Figure DE102022202983A1_0008
      Verreicht.
  • Anschließend wird ein Schritt 304 ausgeführt.
  • Im Schritt 304 umfasst das Verfahren ferner Bereitstellen der dritten Darstellung 210 in dem Vektorraum 200, die die Erwähnung 110 darstellt.
  • Anschließend wird ein Schritt 306 ausgeführt.
  • Schritt 306 umfasst Auswählen eines Teilsatzes des Satzes von Darstellungen 206-11, ..., 206-nm.
  • Der Teilsatz umfasst mindestens eine erste Darstellung und/oder mindestens eine zweite Darstellung, die der dritten Darstellung 210 ähnlicher ist als andere Darstellungen des Satzes von Darstellungen. In dem in 2 veranschaulichten Beispiel umfasst der Teilsatz die Darstellung 206-1i und 206-N2, jedoch nicht die Darstellungen 206-11, 206-12, 206-n1, 206-nm. Bei mehr als zwei Wissensbasen kann der Teilsatz Entitäten aus einer beliebigen von diesen umfassen.
  • Auswählen des Teilsatzes kann Auswählen von mindestens zwei Darstellungen umfassen, die der dritten Darstellung 210 ähnlicher sind als andere Darstellungen.
  • Auswählen des Teilsatzes gemäß einem Beispiel umfasst Auswählen von Darstellungen, die näher an der Darstellung der dritten Darstellung 210 als andere Darstellungen in dem Vektorraum 200 liegen. In einem Beispiel wird eine bestimmte Anzahl der Darstellungen ausgewählt.
  • Auswählen des Teilsatzes gemäß einem Beispiel umfasst Auswählen von Darstellungen in dem Vektorraum 200, die sich innerhalb eines bestimmten Abstands von der dritten Darstellung 210 befinden.
  • Anschließend wird ein Schritt 308 ausgeführt.
  • Schritt 308 umfasst Auswählen der Entität zum Verknüpfen. Auswählen der Entität zum Verknüpfen in dem Beispiel umfasst Auswählen einer Darstellung aus dem Teilsatz.
  • Auswählen der Entität zum Verknüpfen kann Bestimmen eines Werts für die Darstellungen umfassen. In einem Beispiel. Der Wert, der für eine gegebene Entität bestimmt wird, wird abhängig von der Darstellung der Erwähnung 110 und der Darstellung dieser Entität bestimmt.
  • Auswählen der Entität zum Verknüpfen kann Klassifizieren der Darstellungen abhängig von ihrem Wert umfassen.
  • In einem Beispiel wird die Darstellung mit dem höchsten Wert ausgewählt.
  • In einem Beispiel wird die Darstellung ausgewählt, die einen höheren Wert als mindestens eine andere Darstellung aufweist.
  • In dem Beispiel stammt die Entität, die ausgewählt wird, entweder aus der ersten Wissensbasis 106-1 oder aus der zweiten Wissensbasis 106-n. Bei mehr als zwei Wissensbasen kann die Entität aus einer beliebigen davon stammen.
  • Anschließend wird ein Schritt 310 ausgeführt.
  • Schritt 310 umfasst Verknüpfen der Erwähnung 110 mit der Entität, die durch die Darstellung, die aus dem Teilsatz ausgewählt wurde, dargestellt wird.
  • In einem Beispiel umfasst das Training die folgenden Schritte:
    1. 1. Trainieren des Moduls zur Kandidatengenerierung an der allgemeinen Domäne.
  • Trainieren des Moduls zur Kandidatengenerierung, z. B. des entsprechenden Modells, kann z. B. wie in Scalable zero-shot entity linking with dense entity retrieval beschrieben implementiert werden.
    • 2. Feinabstimmen des Moduls zur Kandidatengenerierung unter Verwendung der Verlustfunktion Lθ und der folgenden Trainingsdaten:
      • - Domänenspezifische Daten: Zum Beispiel der Zero-Shot-Entity-Verknüpfungsdatensatz (Zeshel: zero-shot entity linking dataset) aus Fandom: Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin und Honglak Lee. Zero shot entity linking by reading entity descriptions. In Anna Korhonen, David R. Traum und Lluis Märquez, Herausgeber, Proceedings of the 57. Conference of the Association for Computational Linguistics, ACL 2019, Florenz, Italien, 28 Juli - 2. August 2019, Band 1: Längere Aufsätze, Seiten 3449-3460. Association for Computational Linguistics, 2019. Doi: 10.18653/v1/p19-1335. Es kann auch jeder andere domänenspezifische Datensatz verwendet werden.
  • Diese Daten enthalten mehrere Domänen. Für jede Domain sind Entitäten mit Textbeschreibungen und beschrifteten Erwähnungen vorhanden, die aus Artikeln über diese Domain extrahiert wurden.
    • - Daten zur Erweiterung der allgemeinen Domäne: beispielsweise der Datensatz der Reddit-Erwähnungen: Nichola Botzer, Yifan Ding und Tim Weninger. Reddit entity linking dataset. Inf. Process. Manag., 58(3):102479, 2021. Doi: 10.1016/j.ipm.2020.102479. Es kann auch jeder andere Datensatz allgemeiner Domänen verwendet werden.
  • Diese Daten umfassen Erwähnungen, die aus Reddit-Beiträgen und Kommentaren von Reddit-Benutzern extrahiert und an Wikipedia-Entitäten mit Anmerkungen versehen wurden.
    • - Liste überlappender Entitäten: Diese Liste wird beispielsweise durch Zeichenkettenübereinstimmung von Entitätsnamen, die in den zwei oder mehr Wissensbasen auftreten, oder durch Verwenden eines ausgefeilteren Modells generiert, wie etwa eines Satztransformators, um semantische Ähnlichkeiten zwischen Entitäten aus zwei oder mehr Wissensbasen zu erhalten und einen Schwellenwert für die Ähnlichkeit zu definieren, der verwendet wird, um zu bestimmen, ob zwei Entitäten als überlappend betrachtet werden sollten oder nicht. Der Satztransformator könnte ein Satz-BERT sein, wie bei Nils Reimers und Iryna Gurevych offenbart. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9. International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), S. 3982-3992, Hongkong, China. Association for Computational Linguistics.
    • 3. Trainieren des Moduls zur Kandidatenklassifizierung, z. B. des entsprechenden Modells, an der allgemeinen Domäne, z. B. wie in Scalable zero-shot entity linking with dense entity retrieval beschrieben.

Claims (10)

  1. Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext (110) mit einer Entität (106-11, ..., 106-nm) über Wissensbasen hinweg, gekennzeichnet durch, abhängig von den Trainingsdaten, Trainieren (302) des Modells zum Zuordnen einer Entität einer ersten Wissensbasis (106-1) zu ihrer ersten Darstellung in einem Vektorraum (200), zum Zuordnen einer Entität einer zweiten Wissensbasis (106-n) zu ihrer zweiten Darstellung in dem Vektorraum (200), zum Zuordnen der Erwähnung zu einer dritten Darstellung in dem Vektorraum, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Erwähnung in einem Textkontext und ihre entsprechende Referenzentität entweder in der ersten Wissensbasis (106-1) oder der zweiten Wissensbasis (106-n) umfasst, wobei Trainieren des Modells Bewerten einer Verlustfunktion umfasst, wobei die Verlustfunktion für jedes Paar ein Maß für eine Ähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und einer Darstellung in dem Vektorraum der Referenzentität in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen einer Darstellung in dem Vektorraum der Erwähnung in dem Paar und mindestens einer Darstellung in dem Vektorraum einer Entität der ersten Wissensbasis (106-1) oder der zweiten Wissensbasis (106-n), die sich von der Referenzentität in dem Paar unterscheidet, umfasst, wobei die Trainingsdaten einen Satz von Paaren umfassen, in dem jedes Paar eine Entität der ersten Wissensbasis (106-1) und eine Entität der zweiten Wissensbasis (106-n) umfasst, wobei die Entitäten in dem Paar identisch sind, und einen Satz von Paaren, in dem jedes Paar eine Entität der ersten Wissensbasis (106-1) und eine Entität der zweiten Wissensbasis (106-n) umfasst, wobei sich die Entitäten in dem Paar voneinander unterscheiden oder unähnlich sind oder nicht identisch sind, wobei die Verlustfunktion ein Maß für eine Ähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar und/oder ein Maß für eine Unähnlichkeit zwischen den Darstellungen in dem Vektorraum der Entitäten in dem Paar umfasst.
  2. Verfahren nach Anspruch 1, gekennzeichnet durch Bereitstellen (302), in dem Vektorraum (200), eines Satzes von Darstellungen (206-11, ..., 206-nm), wobei der Satz erste Darstellungen (206-11, ..., 206-1i) umfasst, die jeweils eine Entität (106-11, ..., 106-1i) der ersten Wissensbasis (106-1) darstellen, wobei der Satz zweite Darstellungen (206-n1, ..., 206-nm) umfasst, die jeweils eine Entität (106-n1, ..., 106-nm) der zweiten Wissensbasis (106-n) darstellen, wobei das Verfahren ferner Folgendes umfasst: Bereitstellen (304) der dritten Darstellung (210) in dem Vektorraum (200), der die Erwähnung (110) darstellt, Auswählen (306) eines Teilsatzes aus dem Satz von Darstellungen (206-11, ..., 206-nm), wobei der Teilsatz mindestens eine erste Darstellung (206-1i) und/oder mindestens eine zweite Darstellung (206-n2) umfasst, die der dritten Darstellung (210) ähnlicher ist als andere Darstellungen (206-11, 206-12, 206-n1, 206-nm) aus dem Satz von Darstellungen, Verknüpfen (310) der Erwähnung (110) mit der Entität, die durch eine Darstellung dargestellt wird, die aus dem Teilsatz ausgewählt (308) wurde.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass Auswählen (306) des Teilsatzes Folgendes umfasst: Auswählen von mindestens zwei Darstellungen, die der dritten Darstellung (210) ähnlicher sind als andere Darstellungen, Bestimmen eines Werts für die mindestens zwei Darstellungen, wobei der Wert für jede Darstellung der mindestens zwei Darstellungen in Abhängigkeit von der Erwähnung und der Entität, die sie darstellt, bestimmt wird, wobei Auswählen (308) der Darstellung, die den dritten Darstellungen (210) aus dem Teilsatz ähnlicher ist, Klassifizieren der mindestens zwei Darstellungen abhängig von ihrem Wert und Auswählen der Darstellung, die den höheren Wert aufweist, umfasst.
  4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass Auswählen (306) des Teilsatzes insbesondere Auswählen einer gegebenen Anzahl der Darstellungen umfasst, die näher an der dritten Darstellung liegen als andere Darstellungen oder Darstellungen, die sich innerhalb eines gegebenen Abstands von der dritten Darstellung befinden.
  5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass Bereitstellen (302) des Satzes von Darstellungen Zuordnen mindestens einer Entität der ersten Wissensbasis (106-1) mit dem trainierten Modell zu ihrer ersten Darstellung und/oder Zuordnen mindestens einer Entität der zweiten Wissensbasis (106-n) mit dem trainierten Modell zu ihrer zweiten Darstellung umfasst.
  6. Verfahren nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Zuordnen der Erwähnung mit dem trainierten Modell zu der dritten Darstellung.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Bewerten des Maßes für die Ähnlichkeit und/oder des Maßes für die Unähnlichkeit Bestimmen eines Abstands zwischen den Darstellungen in dem Paar in dem Vektorraum umfasst.
  8. Vorrichtung (100) zum Trainieren eines Modells zum Verknüpfen einer Erwähnung im Textkontext (110) mit einer Entität (106-11, ..., 106-nm) über Wissensbasen hinweg, dadurch gekennzeichnet, dass die Vorrichtung (100) angepasst ist, um das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.
  9. Vorrichtung (100) nach Anspruch 8, dadurch gekennzeichnet, dass die Vorrichtung (100) mindestens einen Prozessor (102) und mindestens einen Speicher (104) zum Speichern von Anweisungen umfasst, die, wenn sie von dem mindestens einen Prozessor (102) ausgeführt werden, bewirken, dass die Vorrichtung das Verfahren nach einem der Ansprüche 1 bis 7 ausführt.
  10. Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Anweisungen umfasst, die, wenn sie von einem Computer ausgeführt werden, bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 7 ausführt.
DE102022202983.6A 2022-03-25 2022-03-25 Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg Pending DE102022202983A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102022202983.6A DE102022202983A1 (de) 2022-03-25 2022-03-25 Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg
US18/178,373 US20230306283A1 (en) 2022-03-25 2023-03-03 Device and method for training a model for linking a mention to an entity across knowledge bases
CN202310302848.9A CN116805009A (zh) 2022-03-25 2023-03-23 训练用于跨知识库将提及链接到实体的模型的设备和方法
JP2023048046A JP2023143880A (ja) 2022-03-25 2023-03-24 メンションを複数の知識ベースにわたるエンティティに紐付けるためのモデルを訓練するための方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022202983.6A DE102022202983A1 (de) 2022-03-25 2022-03-25 Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg

Publications (1)

Publication Number Publication Date
DE102022202983A1 true DE102022202983A1 (de) 2023-09-28

Family

ID=87930797

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022202983.6A Pending DE102022202983A1 (de) 2022-03-25 2022-03-25 Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg

Country Status (4)

Country Link
US (1) US20230306283A1 (de)
JP (1) JP2023143880A (de)
CN (1) CN116805009A (de)
DE (1) DE102022202983A1 (de)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SOLIMAN, Hassan: Cross-Domain Neural Entity Linking. End of Thesis Presentation. Saarland University, Bosch Center for AI, 26.07.2021. URL: https://hassanmahmoudd.github.io/documents/Masters_Thesis_Presentation.pdf [abgerufen am 13.02.2023]
SOLIMAN, Hassan: Cross-Domain Neural Entity Linking. Master's Thesis in Computer Science. Universität des Saarlandes, Bosch Center for Artficial Intelligence, 01.02.2022. URL: https://arxiv.org/abs/2210.15616 [abgerufen am 13.02.2023]
WU, Ledell [u.a.]: Scalable zero-shot entity linking with dense entity retrieval. In: Association for Computational Linguistics (ACL): Conference on Empirical Methods in Natural Language Processing (EMNLP) - 16-20 November 2020 - Online, 2020, S. 6397-6407. DOI: 10.18653/v1/2020.emnlp-main.519. URL: https://aclanthology.org/2020.emnlp-main.519.pdf [abgerufen am 2022-05-05].

Also Published As

Publication number Publication date
US20230306283A1 (en) 2023-09-28
CN116805009A (zh) 2023-09-26
JP2023143880A (ja) 2023-10-06

Similar Documents

Publication Publication Date Title
DE112016000509T5 (de) Batch-Normalisierungsschichten
DE102017008430A1 (de) Verfahren und Systeme zum Erzeugen von virtuelle Realität-Umgebungen aus elektronischen Dokumenten
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
DE202017106363U1 (de) Neuronale Antwort-auf-Frage-Netze
DE112013002255T5 (de) Verfahren und Vorrichtung zum Einfügen von Daten
DE112012005998T5 (de) Vorrichtung, Verfahren und Programm zur Wortsinnschätzung
DE112020004321T5 (de) Kontextuelle erdung von phrasen in natürlicher sprache in bildern
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE102020215942A1 (de) System und verfahren für unüberwachte domänenanpassung mit mischungstraining
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE202017107393U1 (de) Vorhersagen eines Suchmaschinen-Einordnungssignalwerts
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE102019211651A1 (de) Vorrichtung und Verfahren zum Maschinenlernen und Ansteuern einer Maschine
DE112013007333T5 (de) Mustererkennungsvorrichtung und Mustererkennungsverfahren
DE102016111396A1 (de) Vorrichtung zum Bearbeiten von Kontaktplanprogrammen, das zum Anzeigen von Netzwerkkommentaren fähig ist
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
CH712988B1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE112021005925T5 (de) Domänenverallgemeinerter spielraum über metalernen zur tiefen gesichtserkennung
DE10047718A1 (de) Verfahren zur Spracherkennung
DE102018220701A1 (de) Diskretisierung von Zahlenwerten mit adaptiver Genauigkeit
DE102022202983A1 (de) Vorrichtung und Verfahren zum Trainieren eines Modells zum Verknüpfen einer Erwähnung mit einer Entität über Wissensbasen hinweg
DE112020000172T5 (de) Beantworten von kognitiven abfragen von sensoreingabesignalen
DE102012025349A1 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten

Legal Events

Date Code Title Description
R163 Identified publications notified