DE102023202711A1 - System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf - Google Patents

System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf Download PDF

Info

Publication number
DE102023202711A1
DE102023202711A1 DE102023202711.9A DE102023202711A DE102023202711A1 DE 102023202711 A1 DE102023202711 A1 DE 102023202711A1 DE 102023202711 A DE102023202711 A DE 102023202711A DE 102023202711 A1 DE102023202711 A1 DE 102023202711A1
Authority
DE
Germany
Prior art keywords
entity
candidate
candidates
entity type
prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102023202711.9A
Other languages
English (en)
Inventor
Jun Araki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of DE102023202711A1 publication Critical patent/DE102023202711A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Ein computer-implementiertes System und Verfahren betreffen Faktenwissenabruf mit Entitätstypklarstellung. Für eine erste Aufforderung wird eine Menge von Kandidaten erzeugt. Die Menge von Kandidaten stellt eine Lösung für die erste Aufforderung bereit. Auf der Basis der Menge von Kandidaten wird eine Menge von zweiten Aufforderungen erzeugt. Unter Verwendung der Menge von zweiten Aufforderungen wird eine Menge von Entitätstypen erzeugt. Die Menge von Entitätstypen kategorisiert die Menge von Kandidaten. Die Menge von Entitätstypen wird über eine Benutzeroberfläche ausgegeben. Über die Benutzeroberfläche wird ein ausgewählter Entitätstyp empfangen. Der ausgewählte Entitätstyp wird aus einer Menge von Entitätstypen gewählt. Ein ausgewählter Kandidat wird ausgegeben. Der ausgewählte Kandidat entspricht dem ausgewählten Entitätstyp.

Description

  • Technisches_Gebiet
  • Die vorliegende Offenbarung betrifft allgemein computer-implementierte Systeme und Verfahren, die NLP (Verarbeitung natürlicher Sprache) und Faktenwissenbeschaffung involvieren.
  • Hintergrund
  • Im Allgemeinen involviert die Faktenwissenbeschaffung Erhalten von Faktenwissen, das in Quelltexten beschrieben wird, die in natürlicher Sprache geschrieben sind. Das erhaltene Faktenwissen wird oft in Wissensbasen gespeichert, wobei Wissen normalerweise als Ansammlung relationaler Triple (Subjekt, Relation, Objekt) codiert wird. Diese Wissensbasen können von Downstream-Anwendungen, wie etwa Fragenbeantwortungssystemen, benutzt werden. Traditionell sind Forscher die Aufgabe der Faktenwissenbeschaffung durch Entwicklung von beaufsichtigten Lernmodellen, die Entitäten und Relationen zwischen diesen aus Text extrahieren können, angegangen. Wenn zum Beispiel ein Eingangssatz „Joe Biden ist der Präsident der Vereinigten Staaten“ gegeben ist, kann ein solches beaufsichtigtes Lernmodell die erste Entität „Joe Biden“, die zweite Entität „der Vereinigten Staaten“ und die Relation „Präsident-der“ extrahieren, um ein Triple „(Joe Biden, Präsident-der, Vereinigten Staaten)“ bilden. Diese beaufsichtigten Lernmodelle beschaffen normalerweise jedoch eine große Menge an von Menschen annotierten Trainingsdaten, die in der Praxis oft zeitaufwändig und kostspielig zu erhalten sind, insbesondere für domänenspezifische Anwendungen.
  • Kurzfassung
  • Es folgt eine Kurzfassung bestimmter Ausführungsformen, die nachfolgend ausführlich beschrieben werden. Die beschriebenen Aspekte werden lediglich angegeben, um dem Leser eine kurze Zusammenfassung dieser bestimmten Ausführungsformen bereitzustellen, und die Beschreibung dieser Aspekte soll den Schutzumfang der vorliegenden Offenbarung nicht beschränken. Die vorliegende Offenbarung kann tatsächlich vielfältige Aspekte einschließen, die im Folgenden möglicherweise nicht ausdrücklich dargelegt sind.
  • Gemäß mindestens einem Aspekt betrifft ein computer-implementiertes Verfahren Faktenwissenabruf mit Entitätstypklarstellung. Das Verfahren umfasst Erhalten einer ersten Aufforderung. Das Verfahren umfasst Erzeugen einer Menge von Kandidaten auf der Basis der ersten Aufforderung über ein Maschinenlernsystem, wobei die Menge von Kandidaten Antworten auf die erste Aufforderung sind. Das Verfahren umfasst Erzeugen einer Menge von zweiten Aufforderungen, die auf der Menge von Kandidaten basieren. Das Verfahren umfasst Erzeugen einer Menge Entitätstypen unter Verwendung der Menge von zweiten Aufforderungen. Die Menge von Entitätstypen kategorisiert die Menge von Kandidaten. Das Verfahren umfasst Ausgeben der Menge von Entitätstypen über eine Benutzeroberfläche. Das Verfahren umfasst Empfangen eines ausgewählten Entitätstyps, der aus der Menge von Entitätstypen ausgewählt wird, über die Benutzeroberfläche. Das Verfahren umfasst Ausgeben eines ausgewählten Kandidaten, der dem ausgewählten Entitätstyp entspricht.
  • Gemäß mindestens einem Aspekt umfasst ein Computersystem eine Benutzeroberfläche, ein nichtflüchtiges computer-lesbares Medium und einen Prozessor. Das nichtflüchtige computer-lesbare Medium speichert computer-lesbare Daten, die Anweisungen umfassen, die, wenn sie ausgeführt werden, ein Verfahren ausführen. Der Prozessor befindet sich in Datenkommunikation mit der Benutzeroberfläche und dem nichtflüchtigen computer-lesbaren Medium. Der Prozessor ist ausgelegt zum Ausführen der computer-lesbaren Daten, um das Verfahren auszuführen. Das Verfahren umfasst Erhalten einer ersten Aufforderung. Das Verfahren umfasst Erzeugen einer Menge von Kandidaten auf der Basis der ersten Aufforderung über ein Maschinenlernsystem. Die Menge von Kandidaten sind Antworten auf die erste Aufforderung. Das Verfahren umfasst Erzeugen einer Menge von zweiten Aufforderungen, die auf der Menge von Kandidaten basieren. Das Verfahren umfasst Erzeugen einer Menge von Entitätstypen unter Verwendung der Menge von zweiten Aufforderungen. Die Menge von Entitätstypen kategorisiert die Menge von Kandidaten. Das Verfahren umfasst Ausgeben der Menge von Entitätstypen über die Benutzeroberfläche. Das Verfahren umfasst Empfangen eines ausgewählten Entitätstyps, der aus der Menge von Entitätstypen ausgewählt wird, über die Benutzeroberfläche. Das Verfahren umfasst Ausgeben eines ausgewählten Kandidaten, der dem ausgewählten Entitätstyp entspricht.
  • Gemäß mindestens einem Aspekt speichern ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien computer-lesbare Daten mit Anweisungen, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren ein Verfahren ausführen. Das Verfahren umfasst Erhalten einer ersten Aufforderung. Das Verfahren umfasst Erzeugen einer Menge von Kandidaten auf der Basis der ersten Aufforderung über ein Maschinenlernsystem. Die Menge von Kandidaten sind Antworten auf die erste Aufforderung. Das Verfahren umfasst Erzeugen einer Menge von zweiten Aufforderungen, die auf der Menge von Kandidaten basieren. Das Verfahren umfasst Erzeugen einer Menge von Entitätstypen unter Verwendung der Menge von zweiten Aufforderungen. Die Menge von Entitätstypen kategorisiert die Menge von Kandidaten. Das Verfahren umfasst Ausgeben der Menge von Entitätstypen über die Benutzeroberfläche. Das Verfahren umfasst Empfangen eines ausgewählten Entitätstyps, der aus der Menge von Entitätstypen ausgewählt wird, über die Benutzeroberfläche. Das Verfahren umfasst Ausgeben eines ausgewählten Kandidaten, der dem ausgewählten Entitätstyp entspricht.
  • Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden in der folgenden ausführlichen Beschreibung gemäß den beigefügten Zeichnungen besprochen, in denen gleiche Zeichen durchweg ähnliche oder gleiche Teile repräsentieren.
  • Kurze Beschreibung der Zeichnungen
    • 1 ist eine Blockdarstellung eines Beispiels für ein System in Bezug auf Wissensabruf mit Entitätstypklarstellung gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
    • 2 ist eine Konzeptdarstellung eines Beispiels für einen Wissensabrufrahmen mit einem Wissensabruf-Entitätstyp-Klarstellungssystem gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
    • 3 ist eine Konzeptdarstellung eines nichteinschränkenden Beispiels für Dateninstanzen des Wissensabruf-Entitätstyp-Klarstellungssystems gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
    • 4A ist eine Darstellung des Systems mit einem nichteinschränkenden Beispiel für eine Benutzeroberfläche zur interaktiven Entitätstypklarstellung gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
    • 4B ist eine Darstellung des Systems mit einem nichteinschränkenden Beispiel für eine Benutzeroberfläche, die die gewünschten Entitätsdaten auf der Basis interaktiver Entitätstypklarstellung bereitstellt, gemäß einer beispielhaften Ausführungsform der vorliegenden Offenbarung.
  • Ausführliche Beschreibung
  • Die hier beschriebenen Ausführungsformen, die anhand von Beispielen gezeigt und beschrieben wurden, und viele ihrer Vorteile werden aus der obigen Beschreibung verständlich, und es ist ersichtlich, dass verschiedene Änderungen an Form, Konstruktion und Anordnung der Komponenten vorgenommen werden können, ohne von dem offenbarten Gegenstand abzuweichen oder ohne einen oder mehrere seiner Vorteile zu opfern. Tatsächlich sind die beschriebenen Formen dieser Ausführungsformen lediglich erläuternd. Diese Ausführungsformen sind für verschiedene Modifikationen und alternative Formen empfänglich, und die folgenden Ansprüche sollen solche Änderungen einschließen und umfassen, und nicht auf die konkreten offenbarten Formen beschränkt sein, sondern sollen stattdessen alle Modifikationen, Äquivalente und Alternativen abdecken, die in den Gedanken und Schutzumfang der vorliegenden Offenbarung fallen.
  • 1 ist eine Darstellung eines Systems 100, das NLP und Faktenwissenbeschaffung betrifft, gemäß einer beispielhaften Ausführungsform. Spezieller betrifft das System 100 Faktenwissenabruf mit Entitätstypklarstellung gemäß einer beispielhaften Ausführungsform. Das System 100 stellt einen effektiven Prozess bereit, der es Benutzern erlaubt, Typen von Zielentitäten zur Wissensbeschaffung auf unbeaufsichtigte Weise klarzustellen. In dieser Hinsicht ist das System 100 dafür ausgelegt, ein oder mehrere Maschinenlernsysteme (z. B. Sprachenmodelle) als Grundlage für das Durchführen von Wissensabruf zu verwenden. Außerdem ist das System 100 dafür ausgelegt, technische Lösungen für Probleme bereitzustellen, wie etwa Aufforderungsmehrdeutigkeit und Entitätsgranularität, die sich aus theoretischen Beschränkungen von sprachenorientierten Konzeptspezifikation ergeben.
  • Das System 100 umfasst einen Wissensabrufrahmen 130, der dafür ausgelegt ist, Zielentitäten zu erzeugen, die mittels interaktiver Klarstellungen von Zielentitätstypen für Benutzer wünschenswert sind, dergestalt, dass es keine Probleme in Bezug auf Aufforderungsmehrdeutigkeit und Entitätsgranularität gibt. Bei einer beispielhaften Ausführungsform betrifft der Wissensabrufrahmen 130 Faktenwissenabruf in Geschäftsanalytik-Benutzungsfällen, aber im Prinzip ist der Wissensabrufrahmen 130 aufgrund der unbeaufsichtigten Beschaffenheit des einen oder der mehreren Maschinenlernsysteme (z. B. des einen oder der mehreren vortrainierten Sprachenmodelle) an jede Domäne oder jede natürliche Sprache anpassbar.
  • Das System 100 umfasst mindestens ein Verarbeitungssystem 110 mit mindestens einer Verarbeitungsvorrichtung. Zum Beispiel umfasst das Verarbeitungssystem 110 mindestens einen elektronischen Prozessor, eine CPU (Zentralverarbeitungseinheit), eine GPU (Grafikverarbeitungseinheit), einen Mikroprozessor, ein FPGA (Field-Programmable Gate Array), ein ASIC (anwendungsspezifische integrierte Schaltung), eine beliebige geeignete Verarbeitungstechnologie oder eine beliebige Anzahl und Kombination davon. Das Verarbeitungssystem 110 ist betreibbar zum Bereitstellen der hier beschriebenen Funktionalität.
  • Das System 100 umfasst ein Speichersystem 120, das wirksam mit dem Verarbeitungssystem 110 verbunden ist. Das Verarbeitungssystem 110 befindet sich in Datenkommunikation mit dem Speichersystem 120. Bei einer beispielhaften Ausführungsform umfasst das Speichersystem 120 mindestens ein nichtflüchtiges computer-lesbares Speicherungsmedium, das dafür ausgelegt ist, verschiedene Daten zu speichern und Zugang zu diesen bereitzustellen, um es mindestens dem Verarbeitungssystem 110 zu ermöglichen, die Operationen und Funktionalität wie hier offenbart auszuführen. Bei einer beispielhaften Ausführungsform umfasst das Speichersystem 120 eine einzige Speichervorrichtung oder mehrere Speichervorrichtungen. Das Speichersystem 120 kann elektrische, elektronische, magnetische, optische, Halbleiter-, elektromagnetische oder beliebige geeignete Speicherungstechnologie umfassen, die mit dem System 100 betreibbar ist. Zum Beispiel kann bei einer beispielhaften Ausführungsform das Speichersystem 120 RAM (Direktzugriffsspeicher), ROM (Festwertspeicher), Flash-Speicher, ein Plattenlaufwerk, eine Speicherkarte, eine optische Speicherungsvorrichtung, eine magnetische Speicherungsvorrichtung, ein Speichermodul, eine beliebige geeignete Art von Speichervorrichtung oder eine beliebige Anzahl und Kombination davon umfassen. Mit Bezug auf das Verarbeitungssystem 110 und/oder andere Komponenten des Systems 100 ist das Speichersystem 120 lokal, entfernt oder eine Kombination davon (z. B. teilweise lokal und teilweise entfernt). Zum Beispiel umfasst bei einer beispielhaften Ausführungsform das Speichersystem 120 mindestens ein Speicherungssystem auf Cloud-Basis (z. B. ein Datenbanksystem auf Cloud-Basis), das von dem Verarbeitungssystem 110 und/oder anderen Komponenten des Systems 100 entfernt ist.
  • Das Speichersystem 120 umfasst mindestens den Wissensabrufrahmen 130, das Maschinenlernsystem 140, ein NLP-Anwendungsprogramm 150 und andere relevante Daten 160, die darauf gespeichert sind. Der Wissensabrufrahmen 130 umfasst computer-lesbare Daten mit Anweisungen, die, wenn sie durch das Verarbeitungssystem 110 ausgeführt werden, für Abruf von Faktenwissen ausgelegt sind, das durch das Maschinenlernsystem 140 erzeugt und/oder in dem Speichersystem 120 gespeichert wird. Die computer-lesbaren Daten können Anweisungen, Code, Routinen, verschiedene diesbezügliche Daten, beliebige Softwaretechnologie oder eine beliebige Anzahl und Kombination davon umfassen. Bei einer beispielhaften Ausführungsform umfasst, wie in 2 gezeigt, der Wissensabrufrahmen 130 eine Anzahl von Softwarekomponenten, wie etwa einen Kandidatengenerator 202, einen Sub-Aufforderungs-Generator 204, einen Entitätstypgenerator 206 und eine Entitätsklarstellungsschnittstelle 208. In dieser Hinsicht kann sich der Ausdruck „Softwarekomponente“ auf ein System, Subsystem oder einen Prozess auf Software-Basis beziehen, das bzw. der dafür programmiert ist, eine oder mehrere spezifische Funktionen auszuführen. Eine Softwarekomponente kann ein oder mehrere Softwaremodule oder Software-Engines umfassen, die in dem Speichersystem 120 an einem oder mehreren Orten gespeichert werden. In einigen Fällen kann die Softwarekomponente eine oder mehrere Hardwarekomponenten enthalten oder involvieren. Der Wissensabrufrahmen 130 ist nicht auf diese Softwarekomponenten beschränkt, sondern kann mehr oder weniger Softwarekomponenten umfassen, solange der Wissensabrufrahmen 130 dafür ausgelegt ist, die Funktionen wie in der vorliegenden Offenbarung beschrieben bereitzustellen.
  • Bei einer beispielhaften Ausführungsform umfasst das Maschinenlernsystem 140 mindestens ein vortrainiertes Sprachenmodell, ein beliebiges geeignetes künstliches Neuronalnetzmodell oder eine beliebige Anzahl und Kombination davon. Zum Beispiel kann als ein nichteinschränkendes Beispiel das vortrainierte Sprachenmodell BERT, GPT-3, ein beliebiges geeignetes autoregressives Sprachenmodell oder eine beliebige Anzahl und Kombination davon umfassen. Das NLP-Anwendungsprogramm 150 umfasst computer-lesbare Daten mit Anweisungen, die, wenn sie durch das Verarbeitungssystem 110 ausgeführt werden, dafür ausgelegt sind, verschiedene Daten, darunter die Ausgangsdaten des Wissensabrufrahmens 130, in einer Anwendung in Bezug auf Verarbeitung natürlicher Sprache zu verwenden und anzuwenden. In dieser Hinsicht können die computer-lesbaren Daten Anweisungen, Code, Routinen, verschiedene diesbezügliche Daten, beliebige Softwaretechnologie oder eine beliebige Anzahl und Kombination davon umfassen. Als ein nichteinschränkendes Beispiel ist das NLP-Anwendungsprogramm 150 dafür ausgelegt, bei der Konstruktion von Wissensgraphen und Wissensbasen unter Verwendung der Ausgangsdaten des Wissensabrufrahmens 130 zu helfen. Als ein anderes nichteinschränkendes Beispiel umfasst das NLP-Anwendungsprogramm 150 ein Fragenbeantwortungssystem, das die Ausgangsdaten des Wissensabrufrahmens 130 verwendet. Das Fragenbeantwortungssystem kann ferner zum Beispiel in virtuellen Assistenten oder einer beliebigen geeigneten Computeranwendung angewandt werden. Unterdessen liefern die anderen relevanten Daten 160 verschiedene Daten (z. B. Betriebssystem, Maschinenlernalgorithmen, verschiedene Maschinenlerndaten, verschiedene Verlustdaten, verschiedene Parameterdaten, verschiedene Vorlagendaten, verschiedene Datenstrukturen, Wissensgraphen, Wissensbasen usw.), die es dem System 100 ermöglichen, die Funktionen wie hier besprochen auszuführen.
  • Das System 100 ist dafür ausgelegt, mindestens ein Sensorsystem 170 zu umfassen. Das Sensorsystem 170 umfasst einen oder mehrere Sensoren. Zum Beispiel umfasst das Sensorsystem 170 einen Bildsensor, eine Kamera, einen Audiosensor, einen beliebigen geeigneten Sensor oder eine beliebige Anzahl und Kombination davon. Das Sensorsystem 170 ist betreibbar zum Kommunizieren mit einer oder mehreren anderen Komponenten (z. B. Verarbeitungssystem 110 und Speichersystem 120) des Systems 100. Zum Beispiel kann das Sensorsystem 170 Sensordaten (z. B. Audiodaten, Bilddaten usw.) liefern, die dann durch das Verarbeitungssystem 110 verwendet oder vorverarbeitet werden, um geeignete Eingangsdaten (z. B. Textdaten) für das Maschinenlernsystem 140 (z. B. Sprachenmodell) zu erzeugen. In dieser Hinsicht ist das Verarbeitungssystem 110 ausgelegt zum Erhalten der Sensordaten direkt oder indirekt von einem oder mehreren Sensoren des Sensorsystems 170. Das Sensorsystem 170 ist lokal, entfernt oder eine Kombination davon (z. B. teilweise lokal und teilweise entfernt). Bei Empfang der Sensordaten ist das Verarbeitungssystem 110 ausgelegt zum Verarbeiten dieser Sensordaten und Bereitstellen der Sensordaten in einem geeigneten Format (z. B. eine Textzeichenkette) in Verbindung mit dem Wissensabrufrahmen 130, dem Maschinenlernsystem 140, dem NLP-Anwendungsprogramm 150 oder einer beliebigen Anzahl und Kombination davon.
  • Außerdem kann das System 100 mindestens eine andere Komponente umfassen. Zum Beispiel ist, wie in 1 gezeigt, das Speichersystem 120 auch dafür ausgelegt, andere relevante Daten 160 zu speichern, die den Betrieb des Systems 100 in Bezug auf eine oder mehrere Komponenten (z. B. Sensorsystem 170, Eingabe-/Ausgabe- bzw. E/A-Vorrichtungen 180 und andere Funktionsmodule 190) betreffen. Außerdem ist das System 100 dafür ausgelegt, eine oder mehrere E/A-Vorrichtungen 180 (z. B. Anzeigevorrichtung, Touchscreen-Vorrichtung, Tastaturvorrichtung, Mikrofonvorrichtung, Lautsprechervorrichtung usw.) zu umfassen, die das System 100 betreffen. Außerdem umfasst das System 100 andere Funktionsmodule 190, wie etwa beliebige geeignete Hardware, Software oder eine Kombination davon, die bei der Funktionsweise des Systems 100 hilft oder dazu beiträgt. Zum Beispiel umfassen die anderen Funktionsmodule 190 Kommunikationstechnologie, die es Komponenten des Systems 100 ermöglicht, miteinander wie in der vorliegenden Offenbarung beschrieben zu kommunizieren. In dieser Hinsicht ist das System 100 betreibbar zum Ausführen des Wissensabrufrahmens 130, sowie zum Trainieren, Verwenden und/oder Einsetzen des Maschinenlernsystems 140.
  • 2 und 3 zeigen Darstellungen eines Beispiels für ein Abrufentitätstyp-Klarstellungs- bzw. KRETC-System 200 gemäß einer beispielhaften Ausführungsform. Bei einer beispielhaften Ausführungsform umfasst der Wissensabrufrahmen 130 (1) das KRETC-System 200. Spezieller zeigt 2 eine Blockdarstellung des KRETC-Systems 200, während 3 nichteinschränkende Beispiele für verschiedene Dateninstanzen zeigt, während das KRETC-System 200 Ausgangsdaten (z. B. Entitätsdaten, wie etwa „Stuttgart“) erzeugt, wenn Eingangsdaten (z. B. eine Aufforderung wie „Robert Bosch GmbH wurde gegründet im Jahre ---“) empfangen werden. Im Allgemeinen ist das KRETC-System 200 ausgelegt zum Erzeugen einer Zielentität eines gewünschten Umfangs auf der Basis einer interaktiven Schnittstelle, die Klarstellung bezüglich eines gewünschten Entitätstyps anfordert. Das KRETC-System 200 wird durch einen oder mehrere Prozessoren des Verarbeitungssystems 110 (1) ausgeführt. In dem in 2 gezeigten Beispiel umfasst das KRETC-System 200 den Kandidatengenerator 202, den Sub-Aufforderungs-Generator 204, den Entitätstypgenerator 206 und die Entitätsklarstellungsschnittstelle 208. Wie erwähnt, kann das KRETC-System 200 mehr oder weniger Softwarekomponenten als die in 2 gezeigte Anzahl von Softwarekomponenten umfassen, solange das KRETC-System 200 dafür ausgelegt ist, die Funktionen wie in der vorliegenden Offenbarung beschrieben bereitzustellen.
  • In 2 ist das Verarbeitungssystem 110 dafür ausgelegt, dem KRETC-System 200 eine Textzeichenkette als Eingangsdaten bereitzustellen. Zum Beispiel ist in 3 das KRETC-System 200 ausgelegt zum Bereitstellen einer Aufforderung (z. B. „Robert Bosch GmbH wurde gegründet im Jahre“) als die Eingangsdaten. Die Aufforderung kann automatisch durch das Verarbeitungssystem 110 oder manuell durch einen Benutzer erzeugt werden. Als ein Beispiel kann die Aufforderung zum Beispiel durch das Verarbeitungssystem 110 über eine Vorlage mit zwei verschiedenen Plätzen, einem Eingangsplatz [X] und einem Antwortplatz [Y], erzeugt werden. Spezieller wurde in 3 als nichteinschränkendes Beispiel die Aufforderung unter Verwendung einer Vorlage (z. B. xvorlage = ,,[X] wurde gegründet im Jahre [Y].") erzeugt. In diesem Beispiel wird die Aufforderung erzeugt, wenn der Eingangsplatz [X] mit einem Eingangseintrag xentität (z. B. „Robert Bosch GmbH) gefüllt ist, so dass xvorlage in xaufforderung = „Robert Bosch GmbH wurde gegründet im Jahre [Y].“ instanziiert wird. 3 liefert ein Beispiel für eine Aufforderung, die als Eingangsdaten durch das KRETC-System 200 erhalten werden kann. Das KRETC-System 200 ist dafür ausgelegt, andere Arten von Aufforderungen zu empfangen und/oder zu erzeugen, die andere Relationen umfassen können, die von der Relation (z. B. „wurde gegründet im Jahre“) des Beispiels von 3 verschieden sind, solange diese anderen Aufforderungen Eingangsentitäten umfassen, die Zielentitäten hervorrufen.
  • Bei einer beispielhaften Ausführungsform umfasst der Kandidatengenerator 202 das Maschinenlernsystem 140, das dafür ausgelegt ist, die Aufforderung als Eingabe zu empfangen. Spezieller umfasst in diesem Beispiel das Maschinenlernsystem 140 ein autoregressives Sprachenmodell, das vortrainiert ist. Das Sprachenmodell ist ausgelegt zum Vorhersagen eines nächsten Worts (z. B. einer Zielentität) auf der Basis des vorherigen Kontexts (z. B. der Aufforderung), um dadurch natürliche Sprache (z. B. Englisch) zu modellieren. Bei Empfang einer Aufforderung als Eingabe ist zum Beispiel wie in 3 gezeigt das Maschinenlernsystem 140 ausgelegt zum Durchführen von Faktenwissenabruf durch Vorhersagen des Antwortplatzes [Y], wenn eine Eingangsaufforderung xaufforderung gegeben ist. In dieser Hinsicht wird das KRETC-System 200 als das durch xaufforde-rung abgefragte Faktenwissen aufweisend betrachtet, wenn die durch das Maschinenlernsystem 140 (z. B. das Sprachenmodell) produzierte Endausgabe ŷ dieselbe wie die Grundwahrheit y ist. Zusätzlich zu der Vorhersage einer oder mehrerer Zielentitäten [Y] für die Aufforderung ist der Kandidatengenerator 202 (z. B. das Maschinenlernsystem 140) ausgelegt zum Erzeugen einer oder mehrerer Konfidenzbewertungen, die der einen oder den mehreren Zielentitäten [Y] entsprechen.
  • Das Maschinenlernsystem 140 (z. B. das vortrainierte Sprachenmodell) kann die korrekte Antwort „y“ durch Auswendiglernen der Fakten unter dem Sprachenmodellierungsziel während der Vortrainierungsphase finden. Die korrekte Antwort kann ein einzelnes Token oder eine Mehrfach-Token-Phrase sein. Um mit Mehrfach-Token-Antworten umzugehen, kann das Maschinenlernsystem 140 ein Multi-Token-Decodierungsverfahren verwenden. Speziell kann das Maschinenlernsystem 140 [Y] in eine Sequenz von Maskentoken „[MASK] ... [MASK]“ umwandeln und die Endvorhersage auf der Basis der Konfidenz durch Aufzählung von 1 bis M Maskentoken in [Y] wählen, wobei M die maximale Anzahl von Maskentoken ist, die für den Antwortplatz erlaubt ist. Zum Beispiel kann, wie in Gleichung 1 ausgedrückt, die Konfidenzbewertung für „m“ Maskentoken als c(m) bezeichnet werden. Um die Konfidenz zu berechnen, verwendet das Maschinenlernsystem 140 eine Pseudo-log-Likelihood-Bewertung, die die Summe der log-Wahrscheinlichkeiten jedes vorhergesagten Token, konditioniert an den anderen Token, ist: c ( m ) = i m log P L M ( y i ' | x a u f f o r d e r u n g , y < i ' )
    Figure DE102023202711A1_0001
  • Dabei ist PLM die Wahrscheinlichkeit, dass das Sprachenmodell das i-te Token y i '
    Figure DE102023202711A1_0002
    vorhersagt. Die genaue Decodierung ist aufgrund der großen Größe des Vokabulars unlösbar. Somit kann das Maschinenlernsystem 140 eine Strahlsuche verwenden, um die plausibelsten „B“-Vorhersagen bei der Konfidenzberechnung zu verfolgen, wobei „B“ eine Strahlgröße repräsentiert. Aus einer Ansammlung dieser Vorhersagen ist der Kandidatengenerator 202 ausgelegt zum Auswählen einer Menge von Kandidaten mit Endvorhersagen, die eine vorbestimmte Anzahl von Vorhersagen mit den höchsten Konfidenzbewertungen aufweisen, wie über Gleichung 2 berechnet. y ^ = arg max y ' = y 1 ' y m ^ ' i = 1 m ^ log P L M ( y i ' | x a u f f o r d e r u n g , y < i ' )
    Figure DE102023202711A1_0003
    wobei m ^ = arg max  1 m M c ( m )
    Figure DE102023202711A1_0004
    ist.
  • Als nichteinschränkende Beispiele zeigt 3 einige Kandidaten, die durch das Maschinenlernsystem 140 als Reaktion auf die Eingangsaufforderung „Robert Bosch GmbH wurde gegründet im Jahre [Y].“ erzeugt werden. In diesem Beispiel ist das Maschinenlernsystem 140 ausgelegt zum Erzeugen einer Ausgabe, die mindestens vier Antwortkandidaten („Deutschland“, „Stuttgart“, „1886“ und „des 19. Jahrhunderts“) umfasst, zusammen mit ihren entsprechenden Konfidenzbewertungen (-0,89, -1,57, -2,45 und -3,12). In diesem nichteinschränkenden Beispiel wird der Antwortkandidat „Deutschland“ als die höchste Konfidenz (-0,89) aufweisend betrachtet, während der Antwortkandidat „dem 19. Jahrhundert“ als unter den vier Antwortkandidaten, die in 3 gezeigt sind, die niedrigste Konfidenz (-3,12) aufweisend betrachtet wird. In dieser Hinsicht ist der Kandidatengenerator 202 ausgelegt zum Durchführen der Konfidenzberechnung und Auswählen einer Menge von Kandidaten für die Aufforderung (z. B. „Robert Bosch GmbH wurde gegründet im Jahre [Y],“ wobei [Y] der Antwortplatz der Aufforderung ist). Wie in 3 gezeigt, umfasst die Menge von Kandidaten vier Antwortkandidaten, die aus einer Sammlung von Antwortkandidaten, die durch das Maschinenlernsystem 140 erzeugt werden, ausgewählt werden. Der Kandidatengenerator 202 kann die Menge von Kandidaten auf der Basis einer vorbestimmten Anzahl von Kandidaten kleiner oder gleich der Strahlgröße mit den höchsten Konfidenzbewertungen auswählen. Der Kandidatengenerator 202 kann einen Kandidaten für die Menge von Kandidaten auswählen, wenn dieser Kandidat eine Konfidenzbewertung aufweist, die über einem Schwellwert liegt, und/oder wenn dieser Kandidat andere Schwellenkriterien erfüllt. Die Menge von Kandidaten kann eine beliebige geeignete Anzahl von Kandidaten umfassen.
  • Als Nächstes ist das KRETC-System 200 ausgelegt zum Ausführen einer Unteraufgabe der Entitätstypinduktion. Zum Beispiel ist in 3 das Ziel dieser Unteraufgabe die Vorhersage des feinkörnigsten Entitätstyps für eine gegebene Entität. Zur Entitätstypinduktion wendet der Sub-Aufforderungs-Generator 204 eine vordefinierte Vorlage 210 an. Zum Beispiel umfasst in 3 der Sub-Aufforderungs-Generator 204 eine Sub-Aufforderungs-Vorlage 210A, die als zvor-lage = [Y] ist ein [Z] definiert ist und auf jeden der Antwortkandidaten angewandt wird. Spezieller füllt der Sub-Aufforderungs-Generator 204 den Eingangsplatz [Y] mit einem Antwortkandidaten zur Erzeugung jeder Sub-Aufforderung, wobei [Z] den Ausgangsplatz (oder den Typplatz) repräsentiert, der den Entitätstyp enthält. Das KRETC-System 200 ist nicht darauf beschränkt, zvorlage = [Y] ist ein [Z] als die Sub-Aufforderungs-Vorlage zu verwenden. In dieser Hinsicht kann das KRETC-System 200 zum Beispiel eine oder mehrere Sub-Vorlagen (z. B. zvorlage = [Y] sind [Z]) umfassen, solange das KRETC-System 200 dafür ausgelegt ist, eine oder mehrere dieser anderen Sub-Vorlagen zu verwenden, um Aufforderungen zu erzeugen, die den Entitätstypgenerator 206 dazu induzieren, Entitätstypen zur Auflösung von Mehrdeutigkeits- und Granularitätsproblemen zu erzeugen.
  • Mit Bezug auf 3 erzeugt zum Beispiel mit Bezug auf den Antwortkandidaten „Deutschland“ der Sub-Aufforderungs-Generator 204 eine Aufforderung „Deutschland ist ein [Z].“ Mit Bezug auf den Antwortkandidaten „Stuttgart“ erzeugt der Sub-Aufforderungs-Generator 204 eine Aufforderung „Stuttgart ist ein [Z].“ Mit Bezug auf den Antwortkandidaten „1886“ erzeugt der Sub-Aufforderungs-Generator 204 eine Aufforderung „1886 ist ein [Z].“ Mit Bezug auf den Antwortkandidaten „des 19. Jahrhunderts“ erzeugt der Sub-Aufforderungs-Generator 204 eine Aufforderung „Das 19. Jahrhundert ist ein [Z].“ In dieser Hinsicht ist jede dieser Aufforderungen eine Aufforderung, kann aber wegen Assoziation mit der Unteraufgabe der Entitätsklarstellung die sich unter der Hauptaufgabe des Faktenwissenabrufs befindet, als eine „Sub-Aufforderung“ bezeichnet werden.
  • Auf das Erzeugen jeder Sub-Aufforderung für jeden Antwortkandidaten in der Menge von Kandidaten hin ist der Entitätstypgenerator 206 ausgelegt zum Ausführen von Faktenwissenabruf an jeder Sub-Aufgabe, um die Entitätstypen der Antwortkandidaten zu erhalten. Das KRETC-System 200 ist ausgelegt zum Erhalten der feinkörnigsten Entitätstypen, weil sie am wahrscheinlichsten auf eine spezifische Weise in Vortrainings-Korpora beschrieben werden. Zum Beispiel sagen beim Vortraining mit Bezug auf „Deutschland“ und „Stuttgart“ die Vortrainings-Korpora wahrscheinlich: „Deutschland ist ein Land ...“ bzw. „Stuttgart ist eine Stadt...“.
  • Mit Bezug auf 3 ist zum Beispiel das KRETC-System 200 dafür ausgelegt, das Maschinenlernsystem 140 (z. B. mindestens ein autoregressives Sprachenmodell) wirksam zu nutzen, um die Unteraufgabe der Entitätstypsinduktion auf unbeaufsichtigte Weise ähnlich wie die Hauptaufgabe des Faktenwissenabrufs anzugeben, um die Menge von Antwortkandidaten zu erhalten. Der Entitätstypgenerator 206 kann dasselbe autoregressive Sprachenmodell wie der Kandidatengenerator 202 oder ein anderes Maschinenlernmodell verwenden. Spezieller ist zum Beispiel der Entitätstypgenerator 206 ausgelegt zum Verwenden des Maschinenlernsystems 140 zur Erzeugung einer Sammlung von Entitätstypen und einer entsprechenden Sammlung von Konfidenzbewertungen als Ausgabe bei Empfang einer Sub-Aufforderung als Eingabe. Zum Beispiel erzeugt das Maschinenlernsystem 140 eine Sammlung von Entitätstypen und eine entsprechende Sammlung von Konfidenzbewertungen auf der Basis der Sub-Aufforderung „Deutschland ist ein [Z].“. Das Maschinenlernsystem 140 erzeugt eine Sammlung von Entitätstypen und eine entsprechende Sammlung von Konfidenzbewertungen auf der Basis der Sub-Aufforderung „Stuttgart ist ein [Z].“ Zusätzlich erzeugt das Maschinenlernsystem 140 eine Sammlung von Entitätstypen und eine entsprechende Sammlung von Konfidenzbewertungen auf der Basis der Sub-Aufforderung „1886 ist ein [Z].“ Außerdem erzeugt das Maschinenlernsystem 140 eine Sammlung von Entitätstypen und eine entsprechende Sammlung von Konfidenzbewertungen auf der Basis der Sub-Aufforderung „Das 19. Jahrhundert ist ein [Z].“
  • Zusätzlich ist der Entitätstypgenerator 206 ausgelegt zum Auswählen eines Entitätstyps mit der höchsten Konfidenzbewertung aus jeder Sammlung von Entitätstypen. In dieser Hinsicht wählt der Entitätstypgenerator 206 „Land“ zum Repräsentieren des Entitätstyps für die Sub-Aufforderung mit dem Antwortkandidaten „Deutschland“, weil „Land“ die größte Konfidenzbewertung aufweist. Der Entitätstypgenerator 206 wählt „Stadt“ zum Repräsentieren des Entitätstyps für die Sub-Aufforderung mit dem Antwortkandidaten „Stuttgart“, weil „Stadt“ die größte Konfidenzbewertung hat. Außerdem wählt der Entitätstypgenerator 206 „Jahr“ zum Repräsentieren des Entitätstyps für die Sub-Aufforderungen mit dem Antwortkandidaten „1886“, weil „Jahr“ die höchste Konfidenzbewertung hat. Außerdem wählt der Entitätstypgenerator 206 „Zeitraum“ zum Repräsentieren des Entitätstyps für die Sub-Aufforderung mit dem Antwortkandidaten „des 19. Jahrhunderts“, weil „Zeitraum“ die höchste Konfidenzbewertung aufweist. In dieser Hinsicht ist der Entitätstypgenerator 206 ausgelegt zum Auswählen eines Entitätstyps, der die entsprechenden Entitätsdaten (d.h. den Antwortkandidaten) wie oben beschrieben am besten repräsentiert oder durch beliebige geeignete Mittel. Danach erzeugt der Entitätstypgenerator 206 eine Menge von Entitätstypen (z. B. Land, Stadt, Jahr und Zeitraum), die die Menge von Kandidaten (z. B. Deutschland, Stuttgart, 1886 und das 19. Jahrhundert) am besten repräsentiert, wie in 3 gezeigt.
  • Zusätzlich oder als Alternative zur Verwendung des Maschinenlernsystems 140 ist der Entitätstypgenerator 206 ausgelegt zum Verwenden eines oder mehrerer anderer Verfahren zur Unterstützung von Entitätstypinduktion in einigen Fällen. Beispielsweise ist der Entitätstypgenerator 206 ausgelegt zum Verwenden mindestens einer In-Domäne-Wissensbasis 212, solange die Antwortkandidaten mit ihrem Entitätstyp in der Wissensbasis codiert sind. Zusätzlich oder als Alternative ist als ein anderes Beispiel der Entitätstypgenerator 206 ausgelegt zum wirksamen Nutzen eines auf Heuristik basierenden Prozesses zum Extrahieren von höheren Konzepten von Zielentitäten aus ersten Sätzen in einem oder mehreren elektronischen Dokumenten 214, wie etwa einem Korpus von Wikipedia-Artikeln. Solche auf Heuristik basierende Prozesse sind nützlich, wenn eine elektronische Quelle (z. B. Wikipedia) Dokumente oder Artikel mit Antwortkandidaten und Entitätstypen umfasst. Nach dem Entitätstyp-Induktionsprozess ist das KRETC-System 200 ausgelegt zum Sammeln einer eindeutigen Menge von Zielentitätstypen und Präsentieren dieser eindeutigen Menge von Zielentitätstypen zur Auswahl.
  • Die Entitätsklarstellungsschnittstelle 208 ist ausgelegt zum Empfangen der Menge von Entitätstypen (oder der eindeutigen Menge von Zielentitätstypen) von dem Entitätstypgenerator 206. Die Entitätsklarstellungsschnittstelle 208 ist ausgelegt zum Bereitstellen interaktiver Entitätstypklarstellung. In dieser Hinsicht ist zum Beispiel die Entitätsklarstellungsschnittstelle 208 ausgelegt zum Bereitstellen einer interaktiven Schnittstelle (z. B. Benutzeroberfläche 400 von 4A, Benutzeroberfläche 408 von 4B und/oder eine beliebige geeignete Benutzeroberfläche), so dass der Benutzer 300 den gewünschten Entitätstyp der Entitätsdaten wählen kann, die als Ausgangsdaten über eine E/A-Vorrichtung 180, den Wissensabrufrahmen 130 und/oder mindestens eine Downstream-Anwendung (z. B. NLP-Anwendungsprogramm 150) abzuliefern sind. Spezieller kann zum Beispiel die eindeutige Menge von Zielentitätstypen einem Benutzer in einer Benutzeroberfläche 400 (4A) oder einem beliebigen anderen geeigneten Mittel (z. B. E/A-Technologie) angezeigt werden, wodurch der Benutzer aus der Menge von Entitätstypen einen Entitätstyp auswählen kann. Zum Beispiel empfängt in 3 die Entitätsklarstellungsschnittstelle 208 einen einzigen Entitätstyp (z. B. Stadt) von dem Benutzer 300 als den ausgewählten Entitätstyp. Auf den Empfang des ausgewählten Entitätstyps (z. B. Stadt) aus der Menge von Entitätstypen über die Benutzeroberfläche 400 hin ist die Entitätsklarstellungsschnittstelle 208 ausgelegt zum Finden des Antwortkandidaten, der dem ausgewählten Entitätstyp entspricht, und Abliefern dieses Antwortkandidaten (z. B. „Stuttgart“) als Ausgangsdaten zum Beispiel an die Benutzeroberfläche 408, das Speichersystem 120, das NLP-Anwendungsprogramm 150 oder eine beliebige Anzahl und Kombinationen davon.
  • Wie in 3 gezeigt, ist das Maschinenlernsystem 200 ausgelegt zum Erzeugen einer Anzahl gültiger Antwortkandidaten für die Aufforderung (z. B. „Robert Bosch GmbH wurde gegründet im Jahre -----“). In dieser Hinsicht ist die Entitätsklarstellungsschnittstelle 208 vorteilhaft, indem sie einem Benutzer 300 ermöglicht, aus einer Menge von Antwortkandidaten über Auswählen eines gewünschten Entitätstyps auszuwählen. Diese Entitätstypauswahl ist vorteilhaft, da der Antwortkandidat mit der höchsten Konfidenzbewertung möglicherweise dem Benutzer nicht die gewünschten Entitätsdaten des gewünschten Umfangs bereitstellt. Zum Beispiel ist in 3 die „Stuttgart“ zugeordnete Konfidenzbewertung kleiner als die „Deutschland“ zugeordnete Konfidenzbewertung. Wie in 3 gezeigt, wünscht der Benutzer 300 jedoch „Stuttgart“ für die Entitätsdaten in Relation zu der Aufforderung (z. B. „Robert Bosch GmbH wurde gegründet im Jahre -----“) anstelle von „Deutschland“, da der Benutzer 300 Entitätsdaten eines anderen Grads der Granularität wünscht. Mit der Entitätstyp-Klarstellungsschnittstelle 208 erlaubt es das KRETC-System 200 einem Benutzer, etwaige Mehrdeutigkeitsprobleme (z. B. Ort gegenüber Zeit) und/oder Granularitätsprobleme (z. B. Land gegenüber Stadt) aufzulösen, bevor die Ausgangsdaten (z. B. Entitätsdaten wie „Stuttgart“) durch das KRETC-System 200 ausgegeben werden.
  • Außerdem ist das KRETC-System 200 und/oder der Wissensabrufrahmen 130 ausgelegt zum Speichern der Entitätsdaten in Assoziation mit der Aufforderung in dem Speichersystem 120. Zusätzlich ist abhängig von der Anwendung der Wissensabrufrahmen 130 (und/oder das NLP-Anwendungsprogramm 150) ausgelegt zum Bereitstellen zusätzlicher Verarbeitung der Aufforderung (z. B. „Robert Bosch GmbH wurde gegründet im Jahre -----“) und der Entitätsdaten (z. B. „Stuttgart“). Zum Beispiel können bei einer beispielhaften Ausführungsform der Wissensabrufrahmen 130 und das KRETC-System 200 durch den Benutzer 300 (z. B. einen Wissenstechniker) verwendet werden, um Wissensgraphen für Wissensbasen zu erzeugen. In diesem Fall sind der Wissensabrufrahmen 130 und/oder das NLP-Anwendungsprogramm 150 ferner ausgelegt zum Extrahieren der notwendigen Daten aus den Eingangsdaten (z. B. Aufforderung) und den entsprechenden Ausgangsdaten (z. B. Entitätsdaten), um auf der Basis dieser extrahierten Daten eine Datenstruktur, wie etwa ein semantisches Triple, zu erzeugen. Zum Beispiel extrahieren in 3 der Wissensabrufrahmen 130 und/oder das NLP-Anwendungsprogramm 150 die erste Entität (z. B. die Eingangsentität „Robert Bosch GmbH“) aus der Aufforderung, die Relation (z. B. die Relation „wurde gegründet im Jahre“) aus der Aufforderung und die zweite Entität (z. B. die Ausgangsentität „Stuttgart“) aus den Ausgangsdaten. Auf das Extrahieren dieser Daten hin erzeugen der Wissensabrufrahmen 130 und/oder das NLP-Anwendungsprogramm 150 auf der Basis der extrahierten Daten ein semantisches Triple. Das semantische Tripel umfasst eine Menge von drei Entitäten und codifiziert eine Aussage über semantische Daten in Form von Subjekt-Prädikat-Objekt-Ausdrücken. Außerdem speichern der Wissensabrufrahmen 130 und/oder das NLP-Anwendungsprogramm 150 dieses semantische Triple in dem Speichersystem 120, so dass eine andere Downstream-Anwendung (z. B. Fragenbeantwortungssystem usw.) dafür ausgelegt ist, das semantische Triple zu verwenden und darauf zuzugreifen.
  • 4A ist eine Darstellung eines nichteinschränkenden Beispiels für eine Benutzeroberfläche 400 zur interaktiven Entitätsklarstellung gemäß einer beispielhaften Ausführungsform. In 4A ist die Benutzeroberfläche 400 eine GUI (grafische Benutzeroberfläche), die auf einer oder mehreren E/A-Vorrichtungen 180 (z. B. Touchscreen-Vorrichtung, Anzeigevorrichtung usw.) des Systems 100 angezeigt wird. In diesem nichteinschränkenden Beispiel zeigt die Benutzeroberfläche 400 die Aufforderung 402 an, um als Bezug zu dienen, um anzugeben, auf was sich die Menge von Entitätstypen bezieht. Außerdem zeigt in dem in 4A gezeigten Beispiel die Benutzeroberfläche 400 die Menge von Entitätstypen 404 zur Auswahl für den Benutzer 300 als Optionen an. In diesem Fall ist jeder Entitätstyp eine Schaltfläche, die bei Aktivierung durch den Benutzer 300 auswählbar ist. Als Alternative kann die Benutzeroberfläche 400 andere Arten von Softwarekomponenten umfassen, die eine Auswahl von Entitätstypen als Optionen präsentieren und es einem Benutzer ermöglichen, einen Entitätstyp auszuwählen. Als ein anderes nichteinschränkendes Beispiel kann die Benutzeroberfläche 400 ein Drop-Down-Menü umfassen, das eine Auflistung von Entitätstypen bereitstellt, worin ein bestimmter Entitätstyp ausgewählt werden kann, wenn er hervorgehoben oder aktiviert wird. 4A entspricht dem in 3 gezeigten Beispiel und zeigt somit den Entitätstyp „Stadt“ als den ausgewählten Entitätstyp 406 auf der Benutzeroberfläche 400.
  • 4B ist eine Darstellung eines nichteinschränkenden Beispiels für eine Benutzeroberfläche 408, die die Ausgangsdaten 410 für den Benutzer 300 bereitstellt, gemäß einer beispielhaften Ausführungsform. In 4B ist die Benutzeroberfläche 408 eine GUI, die auf einer oder mehreren E/A-Vorrichtungen 180 (z. B. Touchscreen) des Systems 100 angezeigt wird. Die Benutzeroberfläche 408 kann dieselbe wie die Benutzeroberfläche 400, dieser ähnlich oder von ihr verschieden sein. In diesem nichteinschränkenden Beispiel zeigt die Benutzeroberfläche 408 die Aufforderung 402 an, um als Bezug zu dienen, um anzugeben, auf was sich die dem ausgewählten Entitätstyp 406 entsprechenden Zielentitätsdaten 412 beziehen. Außerdem zeigt in dem in 4B gezeigten Beispiel die Benutzeroberfläche 408 die Ausgangsdaten 410 an, die die gewünschten dem ausgewählten Entitätstyp 406 (z. B. Stadt) entsprechenden Entitätsdaten 412 (z. B. Stuttgart) umfassen. Ferner ist zusätzlich oder als Alternative zur Anzeige der Entitätsdaten 412 auf der E/A-Vorrichtung 180 das KRETC-System 200 ausgelegt zum Speichern der gewünschten Entitätsdaten 412 und der entsprechenden Aufforderung 402 in dem Speichersystem 120. Außerdem ist zusätzlich oder als Alternative das KRETC-System 200 ausgelegt zum Senden der ausgewählten Entitätsdaten 412 und der entsprechenden Aufforderung 402 zu dem NLP-Anwendungsprogramm 150 zur Downstream-Verwendung.
  • Wie oben gezeigt wurde, stellen 3, 4A und 4B nichteinschränkende Beispiele dafür dar, wie das KRETC-System 200 eine technische Lösung zur Überwindung von Problemen in Bezug auf Aufforderungsmehrdeutigkeit bereitstellt. Spezieller ist eine Aufforderung in natürlicher Sprache oft mit Bezug auf die Art der abgefragten Zielentität mehrdeutig. Zum Beispiel kann in dem in 4A gezeigten nichteinschränkenden Beispiel die Zielentität, die durch die Aufforderung „Robert Bosch GmbH wurde gegründet in [Y]“ abgefragt wird, nach einem Ort auffordern, an dem die Firma gegründet wurde (z. B. „Deutschland“), oder nach einer Zeit der Gründung der Firma (z. B. „dem Jahr 1886“). Aufgrund dieses Mehrdeutigkeitsproblems kann eine einzige auf Sprache basierende Aufforderung naturgemäß nicht in der Lage sein, eine Art der Zielentität angemessen zu spezifizieren. Um dieses Mehrdeutigkeitsproblem anzugehen, stellt das KRETC-System 200 einen interaktiven Ansatz bereit, um Aufforderungsmehrdeutigkeit anzugehen, so dass die gewünschte Zielentität an den Benutzer 300 abgeliefert wird.
  • Außerdem zeigen 3, 4A und 4B nichteinschränkende Beispiele dafür, wie das KRETC-System 200 eine technische Lösung zur Überwindung von Problemen in Bezug auf Entitätsgranularität breitstellt. Spezieller kann es, selbst wenn die Eingangsaufforderung erfolgreich ohne Mehrdeutigkeit einen einzigen Typ für die Zielentität spezifiziert, immer noch mehrere gültige Kandidaten geben, die mit dem Entitätstyp kompatibel sind. Zum Beispiel nehme man an hypothetisch an, dass die Aufforderung „„Robert Bosch GmbH wurde gegründet in [Y])" nicht mehrdeutig war und nach dem Ort der Firma aufgefordert hat. Dann gibt es immer noch mehrere gültige Antwortkandidaten unter dem Ortstyp, wie etwa „Deutschland“, „Stuttgart“ oder andere geeignete Ortsdaten. In diesem Fall kann, obwohl „Deutschland“ die höchste Konfidenzbewertung aufweist, der Benutzer 300 bereits gewusst haben, dass Robert Bosch GmbH in Deutschland gegründet wurde, und kann wünschen, eine konkrete Stadt in Deutschland herauszufinden, in der die Firma gegründet wurde. Wenn man Aufforderungsmehrdeutigkeit und Entitätsgranularität ignoriert, würde der Kandidatengenerator 202 einfach die Antwortkandidaten auf der Basis der probabilistischen Schätzungen auf Wortebene des vortrainierten Sprachenmodells einstufen. Der entscheidende Faktor ihrer Vorhersagen ist somit vermutlich, wie oft das Sprachenmodell während der Vortrainingsphase die Antwortkandidaten in der Eingangsaufforderung ähnlichen Kontexten sieht. Die Bedürfnisse des Benutzers 300 für Wissensbeschaffung können jedoch abhängig von bestimmten Szenarien und Anwendungen unterschiedlich sein. Dementsprechend gibt es ohne Entitätstypklarstellung Lücken in Bezug auf Mehrdeutigkeitsproblem, die, wenn sie nicht angegangen werden, zu unzufriedenstellender Wissensabruf-Leistungsfähigkeit führen können. Zum Glück überwindet das KRETC-System 200 diese Mehrdeutigkeitsprobleme, indem es einem Benutzer ermöglicht wird, einzugreifen und den Entitätstyp der Entitätsdaten (z. B. „Stuttgart“), die für eine bestimmte Aufforderung ausgegeben werden, zu steuern.
  • Wie in der vorliegenden Offenbarung besprochen, kann das KRETC-System 200 als Beschränkungen für die Antworterzeugung durch Klarstellung von Zielentitätstypen anwendend betrachtet werden. In dieser Hinsicht ist das KRETC-System 200 für die eingeschränkte Sprachenerzeugung relevant, die erzeugten Sequenzen in der Schlussfolgerungszeit bestimmte Beschränkungen auferlegt, um wünschenswerte Ausgaben zu erzielen. Im Allgemeinen können diese Beschränkungen als harte Beschränkungen und weiche Beschränkungen kategorisiert werden. Im Gegensatz zur Sprachenerzeugung mit harten Beschränkungen, die sich auf lexikalische Beschränkungen (z. B. Aufnahme von spezifischen lexikalischen Posten in die Ausgabe als positive Beschränkungen oder Ausschließen lexikalischer Posten aus der Ausgabe als negative) konzentrieren können, erlegt das KRETC-System 200 der Antworterzeugung semantische Beschränkungen auf, indem es Benutzern erlaubt wird, Entitätstypen von Antworten zu wählen, während auch etwas Flexibilität bei der Wahl lexikalischer Posten erlaubt wird. Das KRETC-System 200 ist deshalb tendenziell relevanter für Arbeit an weichen Beschränkungen als für Arbeit an harten Beschränkungen.
  • Hinsichtlich Sprachenerzeugung mit weichen Beschränkungen behandeln diese Ansätze tendenziell bestimmte Probleme durch Neutraining oder Feinabstimmung eines gegebenen Sprachenmodells. Zum Beispiel können diese Ansätze Feinabstimmung existierender Modelle mit Verstärkungslernen, Training von generativen adversarischen Netzwerken, Training von konditionalen generativen Modellen oder Training eines großen Sprachenmodells mit Kontrollcodes umfassen. Im Gegensatz zu dem KRETC-System 200 sind diese Ansätze nicht ohne Weiteres auf ein Sprachenmodell anwendbar, weil das gesamte Sprachenmodell für jedes spezifische Attribut getrennt fein abgestimmt werden muss. Die Plug-and-Play-Fähigkeit des schnellen Zurverfügungstellens von Beschränkungen ist angesichts der Tatsache, dass aktuelle moderne Sprachmodelle so groß sind, dass es nicht realistisch ist, sie jedes Mal neu zu trainieren, von großer Wichtigkeit. Es gibt nur wenig Arbeit, die ohne Weiteres benutzbare weiche Beschränkungen zur Texterzeugung ohne Notwendigkeit von zusätzlichem Training erkundet. Obwohl es ein PPLM (Plug-and-Play-Sprachenmodell) zur steuerbaren Sprachenerzeugung gibt, kombiniert dieser PPLM-Ansatz ein vortrainiertes Sprachenmodell mit einem oder mehreren simplen Attributklassifzierern, die Texterzeugung anleiten. Ihre Beschränkungen werden als ein Label auf Sequenzniveau für den gesamten erzeugten Text, wie etwa ein Thema oder ein Gefühl, implementiert. Im Gegensatz dazu zielt das KRETC-System 200 darauf ab, Typbeschränkungen zu einer teilweisen (maskierten) Spanne von erzeugtem Text, die einer Zielentität entspricht, hinzuzufügen. Das KRETC-System 200 ist auch insofern verschieden, als das KRETC-System 200 mögliche Entitätstypen vorschlägt und mittels eines interaktiven Prozesses mit mindestens einem Benutzer die Beschränkungen hinzufügt.
  • Wie in der vorliegenden Offenbarung beschrieben, bietet das KRETC-System 200 eine Anzahl von Vorteilen und Nutzen. Zum Beispiel bietet das KRETC-System 200 einen neuartigen feinkörnigen Faktenwissen-Abrufrahmen 130, der es Benutzern erlaubt, Typen von Zielentitäten klarzustellen, und mit Bezug auf die Eingangsdaten die Zielentitäten bereitstellt, die die Benutzer erhalten möchten. Das KRETC-System 200 stellt vorteilhafterweise einen interaktiven Wissensabrufprozess bereit, der Entitätstypklarstellung involviert und der den Zugriff auf die Zielentitäten strafft, während feinkörnigerer Wissensabruf auf der Basis der Zielentitätstypen ermöglicht wird.
  • Außerdem ist der Wissensabrufrahmen 130 in fast allen Wissensabrufsszenarien effektiv. Zum Beispiel ist der Wissensabrufrahmen 130 mit seinem KRETC-System 200 besonders in verschiedenen Fällen nützlich, wie etwa wenn ein Benutzer nicht in der Lage ist, eine spezifische Aufforderung zu konstruieren, die Zielentitäten eindeutig eingrenzt, wenn es naturgemäß aufgrund der Domänenontologie usw. zahlreiche kompatible Zielentitätskandidaten gibt. Das KRETC-System 200 vereinfacht den Klarstellungsprozess, in dem mögliche Entitätstypen als Vorschläge präsentiert werden und es einem oder mehreren Benutzern erlaubt wird, einen oder mehrere der ordnungsgemäßesten Entitätstypen unter den Vorschlägen zu wählen.
  • Außerdem bietet das KRETC-System 200 sowohl Faktenwissenabruf als auch Entitätstypklarstellung, die aufgrund der unbeaufsichtigten Beschaffenheit seines eines oder seiner mehreren Sprachenmodelle gut an jede Domäne oder jede natürliche Sprache anpassbar sind. Außerdem sind das System 100 und/oder der Wissensabrufrahmen 130 dafür ausgelegt, ungekennzeichnete Daten für das Sprachenmodell-Vortraining zu verwenden und vom Menschen annotierte Daten überflüssig zu machen. Verglichen mit den traditionellen beaufsichtigten Systemen, die von Menschen annotierte Trainingsdaten erfordern, ist das System 100 somit in der Lage, die Kosten der Anpassung des Wissensabrufrahmens 130 an eine interessierende Domäne oder Sprache zu verringern.
  • Ferner ist der Wissensabrufrahmen 130 dafür ausgelegt, wirksam ein oder mehrere Sprachenmodelle zu nutzen. Das Sprachenmodell ist im Allgemeinen beim Annehmen von in natürlicher Sprache geschriebenen Faktenwissenabfragen vorteilhaft. Zum Beispiel ist das Sprachenmodell ausgelegt zum Empfangen einer Aufforderung in natürlicher Sprache, wie etwa „Joe Biden ist der Präsident von den“ und Erzeugen einer Zielentität von „Vereinigten Staaten“, um dadurch zu „Joe Biden ist der Präsident von den Vereinigten Staaten“ zu führen. Dieser Sprachenmodellansatz ist im Hinblick auf Dateneffizienz und Skalierbarkeit vorteilhafter als die traditionellen beaufsichtigten Ansätze. Erstens ist dieser Ansatz dateneffizienter, weil dieser Ansatz keine von Menschen annotierte Trainingsdaten zur Faktenwissenbeschaffung erfordert. Solange eine große Menge von ungekennzeichnetem Text für Vortraining verfügbar ist, kann das Sprachenmodell angemessen auf selbstbeaufsichtigte Weise trainiert werden. Zweitens ist dieser Ansatz skalierbarer, weil traditionelle beaufsichtigte Modelle auf vordefinierte Schemata beschränkt sind, aber Ansätze auf der Basis von Sprachenmodellen solchen Beschränkungen nicht unterliegen. Zum Beispiel ist ein an spezifischen Relationen (z. B. „Präsident von“) trainiertes beaufsichtigtes Relationsextraktionsmodell nicht ohne Weiteres auf andere Relationen (z. B. „CEO von“) anwendbar, aber auf Sprachenmodellen basierende Ansätze sind sofort auf andere Relationen anwendbar, solange eine Aufforderung ordnungsgemäß formuliert ist, z. B. „Steve Jobs ist CEO von“ usw.
  • Außerdem ist der Wissensabrufrahmen 130 dafür ausgelegt, ein oder mehrere Sprachenmodelle zu verwenden, wie etwa diejenigen mit einer Transformiererarchitektur, die die Entwicklung von vortrainierten Sprachenmodellen in großem Maßstab wie BERT und GPT-3 ermöglicht haben. Außerdem werden diese vortrainierten Sprachenmodelle tendenziell aufgrund der großen Kapazität als eine Faktenwissenbasis betrachtet. Verglichen mit traditionellen beaufsichtigten Ansätzen bieten vortrainierte Sprachenmodelle eine unbeaufsichtigte und schemalose Lösung für das Abrufen von Faktenwissen. Im Gegensatz zu anderen Ansätzen, die tendenziell voreingenommene Aufforderungen erzeugen, die einen Datensatz überfordern, ist das KRETC-System 200 dafür ausgelegt, Antworten bereitzustellen, die direkt auf Wissensbedürfnisse von Benutzern passen, statt auf Datensätze zu passen, indem die Grundprobleme der Aufforderungsmehrdeutigkeit und Entitätsgranularität angegangen werden, die oft in Realweltszenarien der Wissensbeschaffung erscheinen.
  • Die obige Beschreibung soll nicht einschränkend, sondern veranschaulichend sein, und wird im Kontext einer konkreten Anwendung und ihrer Anforderungen gegeben. Für Fachleute ist aus der obigen Beschreibung erkennbar, dass die vorliegende Erfindung in vielfältigen Formen implementiert werden kann und dass die verschiedenen Ausführungsformen alleine oder in Kombination implementiert werden können. Obwohl die Ausführungsformen der vorliegenden Erfindung in Verbindung mit konkreten Beispielen dafür beschrieben wurden, können deshalb die hier definierten allgemeinen Prinzipien auf andere Ausführungsformen und Anwendungen angewandt werden können, ohne vom Gedanken und Schutzumfang der beschriebenen Ausführungsformen abzuweichen, und der wahre Schutzumfang der Ausführungsformen und/oder Verfahren der vorliegenden Erfindung ist nicht auf die gezeigten und beschriebenen Ausführungsformen beschränkt, da Fachleuten bei Durchsicht der Zeichnungen, der Beschreibung und der folgenden Ansprüche verschiedene Modifikationen einfallen werden. Zusätzlich oder als Alternative können Komponenten und Funktionalität auf andere Weise als bei den verschiedenen beschriebenen Ausführungsformen getrennt oder kombiniert werden, und können unter Verwendung verschiedener Terminologie beschrieben werden. Diese und andere Varianten, Modifikationen, Zusätze und Verbesserungen können in den Schutzumfang der Offenbarung fallen, so wie er in den folgenden Ansprüchen definiert wird.

Claims (20)

  1. Computer-implementiertes Verfahren zum Faktenwissenabruf mit Entitätstypklarstellung, wobei das Verfahren Folgendes umfasst: Erhalten einer ersten Aufforderung; Erzeugen einer Menge von Kandidaten auf der Basis der ersten Aufforderung über ein Maschinenlernsystem, wobei die Menge von Kandidaten Antworten auf die erste Aufforderung sind; Erzeugen einer Menge von zweiten Aufforderungen, die auf der Menge von Kandidaten basiert; Erzeugen einer Menge von Entitätstypen unter Verwendung der Menge von zweiten Aufforderungen, wobei die Menge von Entitätstypen die Menge von Kandidaten kategorisiert; Ausgeben der Menge von Entitätstypen über eine Benutzeroberfläche; Empfangen eines ausgewählten Entitätstyps, der unter der Menge von Entitätstypen ausgewählt wird, über die Benutzeroberfläche; und Ausgeben eines ausgewählten Kandidaten, der dem ausgewählten Entitätstyp entspricht.
  2. Computer-implementiertes Verfahren nach Anspruch 1, wobei die Menge von Kandidaten einen ersten Kandidaten umfasst, das Maschinenlernsystem ausgelegt ist zum Erzeugen einer ersten Gruppe von Entitätstypen für den ersten Kandidaten und einer entsprechenden ersten Gruppe von Konfidenzbewertungen, ein erster Entitätstyp aus der ersten Gruppe von Entitätstypen ausgewählt wird, wobei der erste Entitätstyp unter der ersten Gruppe von Konfidenzbewertungen eine höchste Konfidenzbewertung aufweist, und die Menge von Entitätstypen den ersten Entitätstyp, um dem ersten Kandidaten zu entsprechen, umfasst.
  3. Computer-implementiertes Verfahren nach Anspruch 1, ferner umfassend: Erhalten einer Eingangsentität, wobei die erste Aufforderung auf der Basis der Eingangsentität unter Verwendung einer Vorlage erzeugt wird; die Vorlage einen Eingangsplatz zum Empfangen der Eingangsentität umfasst; die Vorlage einen Antwortplatz umfasst, der eine Lösung für den Eingangsplatz bereitstellt; das Maschinenlernsystem ausgelegt ist zum Erzeugen eines ersten Kandidaten als eine erste Antwort, die den Antwortplatz erfüllt, wenn sich die Eingangsentität in dem Eingangsplatz befindet; und die Menge von Kandidaten den ersten Kandidaten umfasst.
  4. Computer-implementiertes Verfahren nach Anspruch 1, wobei die Menge von zweiten Aufforderungen auf der Basis einer Vorlage erzeugt wird; die Vorlage einen Kandidatenplatz zum Empfangen eines bestimmten Kandidaten aus der Menge von Kandidaten umfasst; die Vorlage einen Entitätsplatz umfasst; das Maschinenlernsystem ausgelegt ist zum Erzeugen eines ersten Entitätstyps als ein erstes Ergebnis, das den Entitätsplatz in Relation zu dem Kandidatenplatz erfüllt; und die Menge von Entitätstypen den ersten Entitätstyp umfasst.
  5. Computer-implementiertes Verfahren nach Anspruch 1, ferner umfassend: Erzeugen einer Menge von Konfidenzbewertungen für die Menge von Kandidaten über das Maschinenlernsystem, wobei der ausgewählte Kandidat mit einer ausgewählten Konfidenzbewertung assoziiert ist, die Menge von Kandidaten einen anderen Kandidaten umfasst, der andere Kandidat mit einer anderen Konfidenzbewertung assoziiert ist und die ausgewählte Konfidenzbewertung kleiner als die andere Konfidenzbewertung ist.
  6. Computer-implementiertes Verfahren nach Anspruch 1, wobei die Menge von Entitätstypen unter Verwendung einer Wissensbasis erzeugt wird; und die Wissensbasis jeden Kandidaten umfasst, der mit einem entsprechenden Entitätstyp codiert ist.
  7. Computer-implementiertes Verfahren nach Anspruch 1, ferner umfassend: Aktualisieren einer Wissensbasis mit einer Datenstruktur, die die erste Aufforderung und den ausgewählten Kandidaten umfasst, wobei die Datenstruktur ein semantisches Triple umfasst, das in einem nichtflüchtigen computer-lesbaren Medium gespeichert wird.
  8. Computersystem zum Wissensabruf mit interaktiver Entitätstypklarstellung, wobei das Computersystem Folgendes umfasst: eine Benutzeroberfläche; ein nichtflüchtiges computer-lesbares Medium, das computer-lesbare Daten speichert, die Anweisungen umfassen, die, wenn sie ausgeführt werden, ein Verfahren ausführen; und einen Prozessor in Datenkommunikation mit der Benutzeroberfläche und dem nichtflüchtigen computer-lesbaren Medium, wobei der Prozessor ausgelegt ist zum Ausführen der computer-lesbaren Daten, um ein Verfahren auszuführen, das Folgendes umfasst: Erhalten einer ersten Aufforderung; Erzeugen einer Menge von Kandidaten auf der Basis der ersten Aufforderung über ein Maschinenlernsystem, wobei die Menge von Kandidaten Antworten auf die erste Aufforderung sind; Erzeugen einer Menge von zweiten Aufforderungen, die auf der Menge von Kandidaten basiert; Erzeugen einer Menge von Entitätstypen unter Verwendung der Menge von zweiten Aufforderungen, wobei die Menge von Entitätstypen die Menge von Kandidaten kategorisiert; Ausgeben der Menge von Entitätstypen über eine Benutzeroberfläche; Empfangen eines ausgewählten Entitätstyps, der unter der Menge von Entitätstypen ausgewählt wird, über die Benutzeroberfläche; und Ausgeben eines ausgewählten Kandidaten, der dem ausgewählten Entitätstyp entspricht.
  9. Computersystem nach Anspruch 8, wobei die Menge von Kandidaten einen ersten Kandidaten umfasst, das Maschinenlernsystem ausgelegt ist zum Erzeugen einer ersten Gruppe von Entitätstypen für den ersten Kandidaten und einer entsprechenden ersten Gruppe von Konfidenzbewertungen, ein erster Entitätstyp aus der ersten Gruppe von Entitätstypen ausgewählt wird, wobei der erste Entitätstyp unter der ersten Gruppe von Konfidenzbewertungen eine höchste Konfidenzbewertung aufweist, und die Menge von Entitätstypen den ersten Entitätstyp, um dem ersten Kandidaten zu entsprechen, umfasst.
  10. Computersystem nach Anspruch 8, ferner umfassend: Erhalten einer Eingangsentität, wobei die erste Aufforderung auf der Basis der Eingangsentität unter Verwendung einer Vorlage erzeugt wird; die Vorlage einen Eingangsplatz zum Empfangen der Eingangsentität umfasst; die Vorlage einen Antwortplatz umfasst, der eine Lösung für den Eingangsplatz bereitstellt; das Maschinenlernsystem ausgelegt ist zum Erzeugen eines ersten Kandidaten als eine erste Antwort, die den Antwortplatz erfüllt, wenn sich die Eingangsentität in dem Eingangsplatz befindet; und die Menge von Kandidaten den ersten Kandidaten umfasst.
  11. Computersystem nach Anspruch 8, wobei die Menge von zweiten Aufforderungen auf der Basis einer Vorlage erzeugt wird; die Vorlage einen Kandidatenplatz zum Empfangen eines bestimmten Kandidaten aus der Menge von Kandidaten umfasst; die Vorlage einen Entitätsplatz umfasst; das Maschinenlernsystem ausgelegt ist zum Erzeugen eines ersten Entitätstyps als ein erstes Ergebnis, das den Entitätsplatz in Relation zu dem Kandidatenplatz erfüllt; und die Menge von Entitätstypen den ersten Entitätstyp umfasst.
  12. Computersystem nach Anspruch 8, ferner umfassend: Erzeugen einer Menge von Konfidenzbewertungen für die Menge von Kandidaten über das Maschinenlernsystem, wobei der ausgewählte Kandidat mit einer ausgewählten Konfidenzbewertung assoziiert ist, die Menge von Kandidaten einen anderen Kandidaten umfasst, der andere Kandidat mit einer anderen Konfidenzbewertung assoziiert ist und die ausgewählte Konfidenzbewertung kleiner als die andere Konfidenzbewertung ist.
  13. Computersystem nach Anspruch 8, wobei das Maschinenlernsystem ein autoregressives Sprachenmodell umfasst, das vortrainiert wird.
  14. Computersystem nach Anspruch 8, ferner umfassend: Aktualisieren einer Wissensbasis mit einer Datenstruktur, die die erste Aufforderung und den ausgewählten Kandidaten umfasst, wobei die Datenstruktur ein semantisches Triple umfasst, das in einem nichtflüchtigen computer-lesbaren Medium gespeichert wird.
  15. Ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien, die computer-lesbare Daten mit Anweisungen speichern, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren ein Verfahren ausführen, das Folgendes umfasst: Erhalten einer ersten Aufforderung; Erzeugen einer Menge von Kandidaten auf der Basis der ersten Aufforderung über ein Maschinenlernsystem, wobei die Menge von Kandidaten Antworten auf die erste Aufforderung sind; Erzeugen einer Menge von zweiten Aufforderungen, die auf der Menge von Kandidaten basiert; Erzeugen einer Menge von Entitätstypen unter Verwendung der Menge von zweiten Aufforderungen, wobei die Menge von Entitätstypen die Menge von Kandidaten kategorisiert; Ausgeben der Menge von Entitätstypen über eine Benutzeroberfläche; Empfangen eines ausgewählten Entitätstyps, der unter der Menge von Entitätstypen ausgewählt wird, über die Benutzeroberfläche; und Ausgeben eines ausgewählten Kandidaten, der dem ausgewählten Entitätstyp entspricht.
  16. Ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien nach Anspruch 15, wobei die Menge von Kandidaten einen ersten Kandidaten umfasst, das Maschinenlernsystem ausgelegt ist zum Erzeugen einer ersten Gruppe von Entitätstypen für den ersten Kandidaten und einer entsprechenden ersten Gruppe von Konfidenzbewertungen, ein erster Entitätstyp aus der ersten Gruppe von Entitätstypen ausgewählt wird, wobei der erste Entitätstyp unter der ersten Gruppe von Konfidenzbewertungen eine höchste Konfidenzbewertung aufweist, und die Menge von Entitätstypen den ersten Entitätstyp, um dem ersten Kandidaten zu entsprechen, umfasst.
  17. Ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien nach Anspruch 15, wobei die Menge von zweiten Aufforderungen auf der Basis einer Vorlage erzeugt wird; die Vorlage einen Kandidatenplatz zum Empfangen eines bestimmten Kandidaten aus der Menge von Kandidaten umfasst; die Vorlage einen Entitätsplatz umfasst; das Maschinenlernsystem ausgelegt ist zum Erzeugen eines ersten Entitätstyps als ein erstes Ergebnis, das den Entitätsplatz in Relation zu dem Kandidatenplatz erfüllt; und die Menge von Entitätstypen den ersten Entitätstyp umfasst.
  18. Ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien nach Anspruch 15, ferner umfassend: Erzeugen einer Menge von Konfidenzbewertungen für die Menge von Kandidaten über das Maschinenlernsystem, wobei der ausgewählte Kandidat mit einer ausgewählten Konfidenzbewertung assoziiert ist, die Menge von Kandidaten einen anderen Kandidaten umfasst, der andere Kandidat mit einer anderen Konfidenzbewertung assoziiert ist und die ausgewählte Konfidenzbewertung kleiner als die andere Konfidenzbewertung ist.
  19. Ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien nach Anspruch 15, wobei die Menge von Entitätstypen unter Verwendung einer Wissensbasis erzeugt wird; und die Wissensbasis jeden Kandidaten umfasst, der mit einem entsprechenden Entitätstyp codiert ist.
  20. Ein oder mehrere nichtflüchtige computer-lesbare Speicherungsmedien nach Anspruch 15, wobei das Maschinenlernsystem ein autoregressives Sprachenmodell umfasst, das vortrainiert wird.
DE102023202711.9A 2022-03-29 2023-03-24 System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf Pending DE102023202711A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/707,080 2022-03-29
US17/707,080 US20230316001A1 (en) 2022-03-29 2022-03-29 System and method with entity type clarification for fine-grained factual knowledge retrieval

Publications (1)

Publication Number Publication Date
DE102023202711A1 true DE102023202711A1 (de) 2023-10-05

Family

ID=88018808

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023202711.9A Pending DE102023202711A1 (de) 2022-03-29 2023-03-24 System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf

Country Status (3)

Country Link
US (1) US20230316001A1 (de)
CN (1) CN116894072A (de)
DE (1) DE102023202711A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11997056B2 (en) * 2022-08-29 2024-05-28 Adobe Inc. Language model with external knowledge base

Also Published As

Publication number Publication date
US20230316001A1 (en) 2023-10-05
CN116894072A (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE112017004397B4 (de) System und Verfahren zur Einstufung von hybriden Spracherkennungsergebnissen mit neuronalen Netzwerken
DE102017122276A1 (de) Neuronale maschinenübersetzungssysteme
DE602004011753T2 (de) Verfahren und Vorrichtung zum Verbessern der Transkriptionsgenauigkeit bei der Spracherkennung
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE112014002819B4 (de) System und Verfahren zur Erkennung von Sprache
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
DE202017106363U1 (de) Neuronale Antwort-auf-Frage-Netze
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112018002601T5 (de) Verarbeitung natürlicher sprache unter verwendung von kontextspezifischen wortvektoren
DE102016013487A1 (de) Semantischer Vektorraum mit natürlicher Sprache
DE212020000731U1 (de) Kontrastives Vortraining für Sprachaufgaben
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE102016125594A1 (de) Automatisch augmentierende Nachrichtenaustauschthread basierend auf der Nachrichtenklassifizierung
DE102011079443A1 (de) Lerngewichtungen von Schriftarten für getippte Proben bei der Handschriftenschlüsselwortauffindung
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
EP3798922A1 (de) Vorrichtung und verfahren zum maschinenlernen und ansteuern einer maschine
DE112013001740T5 (de) Textverarbeitungsverfahren zum Aufbauen eines Textmodells
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
DE102021004562A1 (de) Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache
DE102023202711A1 (de) System und verfahren mit entitätstypklarstellung für feinkörnigen faktenwissenabruf
DE112018004140T5 (de) Abstraktion und übertragbarkeit auf eine absichtserkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed