DE112020003141T5 - Abfrage-relaxation unter verwendung externen domänenwissenes zur beantwortung von abfragen - Google Patents

Abfrage-relaxation unter verwendung externen domänenwissenes zur beantwortung von abfragen Download PDF

Info

Publication number
DE112020003141T5
DE112020003141T5 DE112020003141.1T DE112020003141T DE112020003141T5 DE 112020003141 T5 DE112020003141 T5 DE 112020003141T5 DE 112020003141 T DE112020003141 T DE 112020003141T DE 112020003141 T5 DE112020003141 T5 DE 112020003141T5
Authority
DE
Germany
Prior art keywords
query
data
instance
specific knowledge
external domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020003141.1T
Other languages
English (en)
Inventor
Chuan Lei
Fatma Ozcan
Dorian Boris Miller
Jeffrey Kreulen
Rebecca Geis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112020003141T5 publication Critical patent/DE112020003141T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2372Updates performed during offline database operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Ein System, ein Verfahren und ein computerlesbares Medium führen ein Verfahren zur Abfrage-Relaxation aus. Eine Abfrage, die von einem Konversationssystem ausgegeben wird, wird empfangen. Mindestens ein Suchbegriff in der Abfrage wird ermittelt. Instanzdaten werden an das Konversationssystem in Reaktion auf die Ermittlung ausgegeben, dass die Instanzdaten in einem Datenspeicher mit dem mindestens einen Suchbegriff in der Abfrage übereinstimmen. Das Computergerät gibt die empfangene Abfrage in Reaktion auf die Ermittlung, dass der mindestens eine Suchbegriff nicht mit den Instanzdaten im Datenspeicher übereinstimmt, an eine externe domänenspezifische Wissensquelle aus. Das Computergerät empfängt die relaxierten Datenübereinstimmungen von der externen domänenspezifischen Wissensquelle, die auf Grundlage einer Mehrzahl von mit der Abfrage verknüpften Kriterien mit mindestens einem Suchbegriff in der Abfrage semantisch verwandt sind. Das Computergerät erzeugt eine Rückmeldung auf die Abfrage basierend auf kontextueller Information und struktureller Information.

Description

  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Offenlegung bezieht sich allgemein auf Systeme und Verfahren für domänenspezifische Wissensbasen (KB). Insbesondere bezieht sich die vorliegende Offenlegung auf domänenspezifische Konversationssysteme, die Abfrage-Relaxation nutzen, um natürlichsprachliche Fragen/Abfragen zu verstehen.
  • Beschreibung des einschlägigen Stands der Technik
  • Heutzutage erfreuen sich Konversationssysteme zunehmender Beliebtheit, da sie eine einfache und natürliche Möglichkeit zur Interaktion mit verschiedenen Typen von Anwendungen und Daten bieten. Solche Systeme werden häufig verwendet, um mit verschiedenen domänenspezifischen Wissensbasen (KBs) zu interagieren, einschließlich Finanzen, medizinische Versorgung, Unterhaltung, um nur einige der vielen existierenden KBs zu nennen.
  • KURZDARSTELLUNG
  • Gemäß verschiedenen Ausführungsformen werden ein Computergerät, ein nicht-flüchtiges, computerlesbares Speichermedium und ein Verfahren für ein Verfahren zur Abfrage-Relaxation bereitgestellt, das externe Wissensquellen (eine domänenspezifische externe Wissensquelle) wirksam einsetzt, um das Domänenvokabular für domänenspezifische Konversationssysteme zu erweitern.
  • Gemäß einer Ausführungsform enthält ein nicht-flüchtiges, computerlesbares Speichermedium einen computerlesbaren Programmcode mit computerlesbaren Anweisungen, die, wenn sie ausgeführt werden, ein Computergerät veranlassen, ein Verfahren zur Abfrage-Relaxation auszuführen. Das Verfahren beinhaltet die Operationen des Empfangens einer Abfrage von einem Konversationssystem. Mindestens ein Suchbegriff wird in der Abfrage in dem Verfahren zur Relaxation ermittelt. Instanzdaten sind Ausgabedaten an das Konversationssystem in Reaktion auf die Ermittlung, dass die Instanzdaten in Datenspeichern mit mindestens einem Suchbegriff in der Abfrage übereinstimmen.
  • In Reaktion auf die Ermittlung, dass der eine Suchbegriff nicht mit den Instanzdaten in den Datenspeichern übereinstimmt, wird die empfangene Abfrage an eine externe domänenspezifische Wissensquelle ausgegeben. Das Computergerät empfängt die relaxierten Datenübereinstimmungen von der externen domänenspezifischen Wissensquelle, die mit mindestens einem Suchbegriff in der Abfrage auf Grundlage einer Mehrzahl von Kriterien semantisch verwandt sind. Das Computergerät erzeugt eine Rückmeldung auf die Abfrage auf Grundlage kontextueller Information und struktureller Information.
  • In einer Ausführungsform basiert die Mehrzahl von Kriterien der semantisch verwandten Begriffe, die durch das Computergerät empfangen wurden, auf struktureller Information, die von der externen domänenspezifischen Wissensquelle erhalten wurde, auf kontextueller Information, die von der Abfrage erhalten wurde, und auf einem Informationsinhalt des Textkorpus, von welchem die Wissensbasis kuratiert wurde.
  • Gemäß einer Ausführungsform umfasst ein System, das so konfiguriert ist, dass es eine Abfrage-Relaxation ausführt, eine Mehrzahl von Datenspeichern. Ein Übersetzungsindex ist so konfiguriert, dass er eine Abfrage von einem Konversationssystem empfängt, Instanzdaten bereitstellt, die auf in den Datenspeichern gespeicherte Datenwerte und semantisch verwandte Begriffe indiziert sind, mindestens einen Suchbegriff in der Abfrage ermittelt, und Instanzdaten an das Konversationssystem ausgibt, wenn die Daten in den Datenspeichern mit dem mindestens einen Suchbegriff in der Abfrage übereinstimmen. Ein externer domänenspezifischer Wissensindex ist so konfiguriert, dass er die Abfrage vom Übersetzungsindex empfängt, wenn es in den Datenspeichern keine Übereinstimmung mit dem mindestens einen Suchbegriff gibt. Der externe domänenspezifische Wissensindex ist ferner so konfiguriert, dass er die empfangene Abfrage an eine externe domänenspezifische Wissensquelle ausgibt und von der externen domänenspezifischen Wissensquelle relaxierte Daten empfängt, die mit mindestens einem Suchbegriff in der Abfrage semantisch verwandt sind. Die relaxierten Daten basieren auf kontextueller Information und struktureller Information, die mit der Abfrage verknüpft ist. In Hinzufügung erzeugt das System eine Rückmeldung auf die Abfrage auf Grundlage kontextueller Information und struktureller Information.
  • In einer Ausführungsform beinhaltet die externe domänenspezifische Wissensquelle Daten in Form von einer oder mehreren Taxonomien, Ontologien oder semantischen Netzwerken.
  • Gemäß einer Ausführungsform beinhaltet ein computer-implementiertes Verfahren zum Ausführen von Abfrage-Relaxation das Empfangen einer Abfrageausgabe von einem Konversationssystem durch ein Computergerät. Mindestens ein Suchbegriff in der Abfrage wird durch das Computergerät ermittelt. Instanzdaten werden an das Konversationssystem in Reaktion auf die Ermittlung ausgegeben, dass die Instanzdaten in einem Datenspeicher mit dem mindestens einen Suchbegriff in der Abfrage übereinstimmen. Das Computergerät gibt die empfangene Abfrage in Reaktion auf die Ermittlung, dass der mindestens eine Suchbegriff nicht mit den Instanzdaten im Datenspeicher übereinstimmt, an eine externe domänenspezifische Wissensquelle aus. Das Computergerät empfängt die relaxierten Datenübereinstimmungen von der externen domänenspezifischen Wissensquelle, die auf Grundlage einer Mehrzahl von mit der Abfrage verknüpften Kriterien mit mindestens einem Suchbegriff in der Abfrage semantisch verwandt sind. Das Computergerät erzeugt eine Rückmeldung auf die Abfrage auf Grundlage kontextueller Information und struktureller Information.
  • Gemäß einer Ausführungsform, ein Offline-Adaptionsverfahren zum Anpassen und Integrieren von externen Wissensdomänen-spezifischen Wissensquellen in eine vorhandene Wissensbasis (KB) eines kognitiven Konversationssystems. Das Verfahren beinhaltet das Erhalten einer Instanzkonzept-Häufigkeit aus der bestehenden KB. Alle Kontexte bei denen eine Domänenontologie, in der ein Instanzkonzept verwendet wird, werden berechnet. Alle Instanzkonzepte werden von der bestehenden KB auf die externe domänenspezifische Wissensquelle abgebildet. Die bestehende KB ist so konfiguriert, dass sie in Reaktion auf eine natürlichsprachliche Abfrage, die von einem Konversationssystem empfangen wird, nach semantisch verwandten Begriffen sucht.
  • Gemäß einer Ausführungsform beinhaltet ein computer-implementiertes Verfahren zum wirksamen Einsetzen von Informationsgehalt in einer vorhandenen Wissensbasis (KB), die für die Suche nach semantisch verwandten Begriffen unter Verwendung von Abfrage-Relaxation in Reaktion auf eine natürlichsprachliche Abfrage konfiguriert ist, das Zuweisen unterschiedlicher Gewichtungen zu isA- und hasA-Beziehungen in einer externen domänenspezifischen Wissensquelle. Eine Gewichtung eines Pfades, der zwei Instanzkonzepte c1 (Suchkonzept) und c2 (verwandtes Konzept) verbindet, wird gemäß dem Folgenden berechnet: p c 1 ,c 2 = i | D | w i D i
    Figure DE112020003141T5_0001
    wobei:
    • ein Abstand zwischen dem Instanzkonzept C1 und dem verwandten Konzept C2 |D| ist, und
    • Wi die Gewichtung der i-ten Beziehung von C1 zu C2 ist.
  • Die Ergebnisse für das berechnete Gewicht eines Pfades für jeweils zwei Instanzkonzepte basieren auf Ähnlichkeitsscores, und es werden die relaxierten Ergebnisse ausgegeben, bei denen die Ähnlichkeitsscores einen höchsten Ergebnisbereich betragen.
  • Diese und andere Merkmale werden aus der folgenden ausführlichen Beschreibung von veranschaulichenden Ausführungsformen davon offenkundig, die in Verbindung mit den begleitenden Zeichnungen gelesen werden soll.
  • Figurenliste
  • Die Zeichnungen stellen veranschaulichende Ausführungsformen dar. Sie veranschaulichen nicht alle Ausführungsformen. Weitere Ausführungsformen können zusätzlich oder stattdessen verwendet werden. Details, die offenkundig erscheinen oder unnötig sind, können weggelassen worden sein, um Platz zu sparen oder aus Gründen einer effizienteren Veranschaulichung. Einige Ausführungsformen können mit zusätzlichen Komponenten oder Schritten und/oder ohne alle der veranschaulichten Komponenten oder Schritte ausgeübt werden. Wenn in verschiedenen Zeichnungen dieselben Bezugszeichen erscheinen, wird damit auf dieselben oder ähnliche Komponenten oder Schritte verwiesen.
    • 1 veranschaulicht eine beispielhafte Architektur eines domänenspezifischen Konversationssystems unter Verwendung von Abfrage-Relaxation, in Übereinstimmung mit einer illustrativen Ausführungsform.
    • 2A veranschaulicht die generelle Funktionsweise eines gewünschten Konversationsflusses, in Übereinstimmung mit einer illustrativen Ausführungsform.
    • 2B veranschaulicht ein Beispiel für die Erfassung von Instanzdaten, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 3 ist ein Ablaufplan zur Veranschaulichung einer Funktionsweise eines domänenspezifischen Konversationssystems, das mit einem System zur Abfrage-Relaxation kommuniziert, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 4 veranschaulicht ein Beispiel für das Einlesen der Systemized Nomenclature of Medicine-Clinical Terms in einen Relaxations-Service, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 5 ist ein Beispiel für ein Layout der strukturellen Informationen in isA-Pfaden, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 6 veranschaulicht einen Teil der Systemized Nomenclature of Medicine-Clinical Terms mit der Instanzkonzept-Häufigkeit, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 7 und 8 sind veranschaulichende Beispiele, die die hybride Herangehensweise der vorliegenden Offenlegung mit einer Radius-basierten Herangehensweise, in Übereinstimmung mit einer veranschaulichenden Ausführungsform vergleichen.
    • 9 ist eine funktionale Blockdiagramm-Darstellung einer Computer-Hardware-Plattform, die mit verschiedenen vernetzten Komponenten kommunizieren kann, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 10 veranschaulicht eine Cloud-Computing-Umgebung, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
    • 11 stellt Abstraktionsmodellschichten dar, in Übereinstimmung mit einer veranschaulichenden Ausführungsform.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Überblick
  • In der folgenden ausführlichen Beschreibung werden zahlreiche spezifische Details mithilfe von Beispielen dargelegt, um für ein umfassendes Verständnis der relevanten Lehren zu sorgen. Es sollte jedoch offensichtlich sein, dass die vorliegenden Lehren ohne derartige Details ausgeübt werden können. In anderen Fällen wurden wohlbekannte Verfahren, Prozeduren, Komponenten und/oder Schaltungen auf einer relativ hohen Ebene ohne Details beschrieben, um eine unnötige Unverständlichkeit von Aspekten der vorliegenden Lehren zu vermeiden.
  • In einem Aspekt bezieht sich die vorliegende Offenlegung auf ein Verfahren und System zur Abfrage-Relaxation, das externe Wissensquellen wirksam einsetzt, um das Domänenvokabular für domänenspezifische Konversationssysteme zu erweitern. In domänenspezifischen Konversationssystemen ist die Abfrage-Relaxation eine Technik, bei der eine Abfrage in natürlicher Sprache so transformiert wird, dass sie die Absicht des Benutzers repräsentiert. Anstatt leere Antworten (z.B. „nicht gefunden“) an den Benutzer zurückzugeben, wird die Abfrage-Relaxation verwendet, bei der die Rückmeldung erweitert wird, um einige oder mehrere Antworten zurückzugeben. Abfrage-Relaxation-Techniken können zuerst die restriktivste Version einer Abfrage ausführen, gefolgt von einer Relaxation der Abfrage, bis eine vorher festgelegte Anzahl von Treffern zurückgegeben wird. Die Abfrage-Relaxation führt jedoch zu einer Verringerung der Präzision und des Recalls, wenn die Suche weniger restriktiv wird. Im Fall von domänenspezifischen Konversationssystemen, die externe Wissensquellen durchsuchen und ein tiefes Domänenverständnis nutzen, um die Beantwortung von Abfragen mit hoher Präzision und Recall zu gewährleisten, können Abfrage-Relaxationstechniken die Präzision und den Recall einer Suche verringern. Hier werden veranschaulichende Ausführungsformen eines Verfahrens und eines Systems zur Abfrage-Relaxation dargestellt, die die Absicht des Benutzers besser darstellen, um eine hohe Präzision und einen hohen Recall bereitzustellen.
  • Das Verfahren zur Abfrage-Relaxation besteht aus zwei Phasen, der Offline-Anpassung an externe Wissensquellen und der Online-Abfrage-Relaxation. Die Diskussion hierin stellt veranschaulichende Beispiele für das Anpassen und das Einbeziehen einer externen Wissensquelle in ein System uns ein Verfahren zur Abfrage-Relaxation dar.
  • In der Offline-Anpassungsphase können zusätzliche anwendungsspezifische Beziehungen in die angepasste externe Wissensquelle eingeführt werden. Genauer gesagt, wird eine zusätzliche Kante zu einem Paar von Konzepten eingeführt in Reaktion darauf, dass die folgenden Bedingungen erfüllt sind: (1) zwei Instanzkonzepte sind nicht direkt miteinander verbunden (z.B. Ein-Hop-Nachbar), (2) eines der Konzepte ist ein Vorgänger des anderen, (3) mindestens ein (oder beide) Konzept(e) sind mit einer Markierung versehen (die in der gegebenen Wissensbasis KB bereitgestellt wird), und (4) die semantische Ähnlichkeit überschreitet einen vorbestimmten Schwellenwert. Infolgedessen kann ein Paar von Konzepten zu Ein-Hop-Nachbarn in Bezug auf die Anwendung werden. Eine neu eingeführte Kante wird dann mit dem berechneten Ähnlichkeitsscore encodiert, so dass die ursprünglichen semantischen Daten zwischen den beiden Konzepten erhalten bleiben. Somit sind die Konzepte aus der ursprünglichen KB näher herangekommen, wodurch sie besser erreichbar sind. Durch die Verwendung der Offline-Anpassungsphase sind die Ähnlichkeitsscores außerdem bereit, ohne eine unnötige Verzögerung in der Online-Abfrage-Relaxation einzuführen.
  • Aufgrund der hier erörterten Konzepte stellen verschiedene Aspekte der vorliegenden Offenlegung eine Verbesserung der Computerbedienung und einer anderen Technologie bereit (z.B. Konversationssysteme wie solche, die Abfrage-Relaxation bei der domänenspezifischen Suche verwenden). Beispielhaft verbessern die verschiedenen hier diskutierten Aspekte die Computerbedienung, indem sie die Nutzung von Ressourcen verringern, die mit der domänenspezifischen Suche verknüpft sind. Es werden reduzierte CPU-Zyklen, eine reduzierte Speichernutzung und eine geringere Nutzung des Netzwerks bereitgestellt. In der Technologie von Konversationssystemen stellen verschiedene Aspekte, wie hier diskutiert, eine erhöhte Flexibilität bei Abfragen bereit, ohne dabei an Präzision zu verlieren. Im Detail wird nun auf die in den beigefügten Zeichnungen veranschaulichten Beispiele verwiesen, die im Folgenden erörtert werden.
  • Eine beispielhafte Architektur
  • 1 veranschaulicht eine beispielhafte Architektur 100 eines domänenspezifischen Konversationssystems, das Abfrage-Relaxation verwendet, in Übereinstimmung mit einer veranschaulichenden Ausführungsform. Durch das Verstehen von Domänenvokabularen für einen Suchbegriff wird eine Liste von semantisch verwandten Begriffen mit hoher Präzision und hohem Recall zurückgegeben. Ein domänenspezifisches Konversationssystem 105 empfängt eine Abfrage. In einigen Fällen kann das Konversationsmodul 105 die Antwort auf eine Abfrage haben, ohne das Abfrageergebnis relaxieren zu müssen. Wenn keine Antwort verfügbar ist, übergibt das Konversationsmodul 105 eine Suchphrase an einen Übersetzungsindex (TI) 110. Der Übersetzungsindex (TI) 110 stellt Instanzdaten für Datenwerte bereit, die in den Datenspeichern gespeichert sind. Ein Aufruf des Übersetzungsindex 110 stellt den Abfragen „Datenbewusstsein“ zur Verfügung, indem ein Begriff ermittelt wird. Die Instanzdaten (TI) 115 können auch einige oder alle Varianten der Instanzdaten beinhalten. Wenn es keine exakten Übereinstimmungen in den Instanzdaten 115 gibt, wird die Suche an einen Abfrage-Relaxation-Service geschickt, um das externe Wissen (TI) 120 wirksam einzusetzen, das auf ein externes Domänenwissen zugreift, um semantisch verwandte Übereinstimmungen an das Konversationssystem 105 zurückzugeben. Das Konversationssystem 105 kann Watson® Assistant oder ein anderes Konversationssystem beinhalten, ist aber in keiner Weise darauf beschränkt.
  • Beispielhaft kann das Konversationssystem 105 bei einer Abfrage bezüglich der Firma X Bank den Begriff an den Übersetzungsindex 110 weiterleiten, um semantisch verwandte Begriffe bereitzustellen. In einem Beispiel wird die Instanz „Firma“ als Firmenname mit Begriffen aufgefüllt, die mit „Firma“ verknüpft sind, um die Flexibilität bei der Suche zu erhöhen. So kann der Übersetzungsindex 110 die Instanzdaten zusammen mit den übersetzten Begriffen bereitstellen, und die Instanzdaten (TI) 115 können in Verbindung mit dem externen Wissen (TI) 120 Begriffe wie „Firma X Bank, N.A.“, „Firma X Bank International Limited“, „Firma X Bank, India“ liefern. Wenn es keine exakte Übereinstimmung gibt, wird ein externer Wissensübersetzungsindex 120 unter Verwendung von Abfrage-Relaxation abgefragt, um eine relaxierte Antwort auf die Abfrage bereitzustellen. Der externe Wissens-TI 120 greift auf externe Wissensquellen zu (z. B. Systemized Nomenclature of Medicine-Clinical Terms (SNOMED-CT®), Financial Industry Business Ontology (FIBO)) und stellt eine relaxierte Rückgabe der Abfrage bereit.
  • Die externen Wissensquellen werden verwendet, um die Abfrage-Relaxationstechniken zu verstärken, damit die Begriffe der Abfrage über die syntaktische Übereinstimmung hinaus verallgemeinert oder spezialisiert werden können. Externe Wissensquellen (wie SNOMED-CT®) sind jedoch oft nicht an die Anforderungen der Anwendung angepasst. Die Verwendung einer externen Wissensquelle ohne angemessene Anpassung könnte daher unerwünschte Informationen in semantisch verwandte Ergebnisse einbringen. Diese externen Wissensquellen sind häufig in Form von Taxonomien, Ontologien und semantischen Netzwerken wie SNOMED-CT® und FIBO® ausgebildet.
  • Beispielhafte Prozesse
  • Mit dem vorangegangenen Überblick über die beispielhafte Architektur 100 kann es nun hilfreich sein, eine Diskussion von beispielhaften Prozessen auf hoher Ebene zu betrachten. Zu diesem Zweck sind in den 2A, 2B und 3 Prozesse veranschaulicht, die sich auf verschiedene Aspekte eines domänenspezifischen Verfahrens zur Abfrage-Relaxation und eines Systems beziehen, das externes Domänenwissen zur Beantwortung von Abfragen gemäß der vorliegenden Offenlegung verwendet. Die Prozesse sind als eine Ansammlung von Blöcken in einem logischen Ablaufplan veranschaulicht, die eine Reihenfolge von Operationen darstellen, die in Hardware, Software oder einer Kombination davon implementiert werden können. Im Zusammenhang mit Software stellen die Blöcke computerausführbare Anweisungen dar, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, die erwähnten Operationen ausführen. Im Allgemeinen können computerausführbare Anweisungen Routinen, Programme, Objekte, Komponenten, Datenstrukturen und dergleichen umfassen, die Funktionen ausführen oder abstrakte Typen von Daten implementieren. In jedem Prozess ist die Reihenfolge, in der die Operationen beschrieben werden, nicht als Einschränkung zu verstehen, und eine beliebige Anzahl der beschriebenen Blöcke kann in beliebiger Reihenfolge kombiniert und/oder parallel ausgeführt werden, um den Prozess zu implementieren. Zu Diskussionszwecken werden die Prozesse mit Bezug auf die Architektur 100 von 1 beschrieben.
  • 2A ist eine veranschaulichende Darstellung der allgemeinen Operation eines gewünschten Gesprächsablaufs in Übereinstimmung mit einer veranschaulichenden Ausführungsform. 2A zeigt einen gewünschten Gesprächsablauf zwischen einem Benutzer und einem System unter Verwendung von Abfrage-Relaxation. Bei dem Konversationssystem 205 kann es sich um ein System wie den Watson® Assistant handeln. Es ist jedoch zu verstehen, dass die Anwendung der hier diskutierten Konzepte weit gefasst und nicht auf ein bestimmtes Konversationssystem beschränkt ist. Auch wenn die Abfragen im Allgemeinen in natürlicher Sprache erfolgen, die gesprochen oder getippt werden kann, sind die Konzepte auch auf stärker strukturierte Abfragen anwendbar.
  • Wie in 2A dargestellt, wird eine Abfrage gestellt, um Informationen zur Behandlung einer Krankheit oder Verletzung zu erhalten. Das Konversationssystem 205 empfängt eine Abfrage (z. B. Zeige mir Medikamente zur Behandlung von Krankheit x). Die Abfrage wird von einem kognitiven System 250 empfangen. Bei 255, wenn es keine partielle Wort-Übereinstimmung gibt, nutzt das kognitive System 250 einen Abfrage-Relaxations-Service. Gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenlegung werden zur Unterstützung des Verständnisses der Abfrage Inhalte von einer externen Domänenwissen-Quelle erhalten und verarbeitet, um eine Liste von Elementen zurückzugeben, die semantisch mit der Abfrage des Benutzers in Beziehung stehen, die dem Konversationssystem 265 bereitgestellt wird. Durch die Operationen des wirksamen Einsatzes von externen Wissensquellen, wie Taxonomien, Ontologien und semantischen Netzwerken, wird das Domänenvokabular für Konversationssysteme erweitert. Während das Konversationssystem 205 in der Operation 265 eine weitere Klärung anfordert, indem der Benutzer mindestens eines der Elemente oder keines der Elemente durch den wirksamen Einsatz der externen Wissensquellen ermittelt, um um den Domäneninhalt zu erhalten, sind die Elemente A, B und C qualitativ hochwertigere Ergebnisse mit erhöhter Genauigkeit mit erhöhter hoch Präzision und Recall.
  • 2B stellt ein beispielhaftes Verfahren zur Erfassung von Instanzdaten dar, in Übereinstimmung mit einer veranschaulichenden Ausführungsform. In 2B stellt der Übersetzungsindex (TI) 270 Instanzdaten für die Indizierung von Datenwerten bereit, die in den Datenspeichern gespeichert sind. Der Übersetzungsindex 270 stellt Datenbewusstsein für die Abfragen und das Abbilden von Datenwerten auf Eigenschaften in der Ontologie bereit. Die flexible Indizierung und Abgleichs-Semantik kann auf Grundlage des Konzepts (Typ der Entität) erfolgen.
  • Mit weiterem Bezug auf 2B wird bei der Abfrage „Zeige mir die Kredite von Firma Y“ diese Abfrage dem kognitiven System bereitgestellt. Ein Tl-Nachschlag auf einen String gibt eine Menge von Ontologie-Eigenschaften zusammen mit einer entsprechenden Liste von passenden Werten für jede Eigenschaft zurück. Der Übersetzungsindex stellt ein Ergebnis bereit, das mehrere Subtypen des Firma-Konzepts zeigt. Beispielhaft ist der Name der Holding/Firma „Firma Y International LTD“, der Name des Kreditgebers ist „Firma Y Financial“, „Firma Y Financial Services Corp.“. Der Name des Kreditnehmers lautet „Firma Y Inc.“, und der Name der Investition/Firma lautet „Firma Y Investment LTD“. Diese Ergebnisse werden dem kognitiven System bereitgestellt.
  • 3 ist ein Ablaufplan, der die Operation eines domänenspezifischen Konversationssystems veranschaulicht, das in Übereinstimmung mit einer veranschaulichenden Ausführungsform mit einem System zur Abfrage-Relaxation kommuniziert. Bei Operation 305 stellt ein Benutzer dem Konversationssystem eine Frage. In Operation 310 interpretiert das Konversationssystem die Frage.
  • Bei Operation 315 fordert das Konversationssystem Unterstützung beim Verstehen der Abfrage an, um kontextuelle Informationen zu erhalten. Beispielhaft können in Konversationssystemen die kontextuellen Informationen einen erheblichen Einfluss auf die semantische Korrektheit der relaxierten Ergebnisse haben. Beispielhaft könnte ein Benutzer bei einer Frage zur Behandlung eines Gesundheitszustands fragen: „Welche Medikamente behandeln psychogenes Fieber?“. Wenn in Operation 315 keine Hilfe zum Verständnis der Abfrage verwendet wird, gibt das Konversationssystem in Operation 320 die Ergebnisse zurück. Fordert das Konversationssystem in Operation 315 jedoch Hilfe beim Verstehen der Abfrage an, so wird die Abfrage vom Abfrage-Relaxation-Service 340 des kognitiven Systems 350 bearbeitet. In einer Ausführungsform wurden die Operationen 325, 330 und 335 vorangehend ausgeführt, um den Abfrage-Relaxations-Service so zu konfigurieren, dass er eine relaxierte Suche z. B. nach medizinischer Terminologie durchführt. In Operation 325 wird eine externe Wissensquelle (z. B. SNOMED-CT®) unter Verwendung von Domäneninhalten erhalten. SNOMED-CT® ist ein Beispiel für eine externe Wissensquelle für klinische Gesundheitsterminologie. Diese externe Wissensquelle kann zur Ermittlung von Konzepten (z. B. Top-Level-/Instanzkonzepte), Beziehungen (isA/Attributbeziehungen) und Beschreibungen (Definitionen/Symptome) verwendet werden. Der Domäneninhalt wird verwendet, um semantisch verwandte Übereinstimmungen zu finden.
  • In einer hierarchischen Beziehung, beispielsweise einer Hyponymie-Beziehung, kann eine isA-Beziehung auf einer Beziehung zwischen Klassen und Unterklassen aufgebaut werden, wobei eine Klasse A eine Unterklasse einer anderen Klasse B sein kann (im Gegensatz beispielsweise zu einer Hyperonym-Beziehung (einer hasA-Beziehung), die sich auf andere Typen von Klassen bezieht). Das von der externen Wissensquelle erhaltene Domänenwissen wird in Form einer Domänenontologie/Taxonomie angeordnet.
  • Bei der Abfrage-Relaxation haben die kontextuellen Informationen einen großen Einfluss auf die semantische Korrektheit der relaxierten Ergebnisse. In diesem veranschaulichen Beispiel wurde dem Konversationssystem die Frage „Welche Medikamente behandeln psychogenes Fieber“ gestellt, wobei zu beachten ist, dass sowohl „Hyperpyrexie“ als auch „Hypothermie“ ähnliche Erkrankung wie „psychogenes Fieber“ in der Systemized Nomenclature of Medicine-Clinical Terms (SNOMED® CT) sind.
  • Bezüglich des Bereitstellens von relaxierten Ergebnissen im Kontext der „Behandlung“ grenzt der Begriff „Hypothermie“ jedoch an ein falsches Ergebnis und sollte nicht zurückgegeben werden, da Hypothermie das Gegenteil von „Hyperpyrexie“ und „psychogenem Fieber“ ist. Die Medikamente für „Hyperpyrexie“ sind völlig unterschiedlich zu denen für „Hypothermie“ und könnten tatsächlich Schaden anrichten.
  • Bei Operation 330 wird der Domäneninhalt aus der externen Wissensquelle in eine Graphen-Datenbank mit Informationsinhalten eingelesen. Bei Operation 340 kann die externe Wissensquelle in einem Service gehostet werden, beispielsweise in einer Wissensbasis. Bei Operation 350 stellt der Abfrage-Relaxation-Service dem Konversationssystem die relaxierten Ergebnisse bereit.
  • Alternativ können in einer Ausführungsform die Operationen 325, 330 und 335 in Reaktion darauf ausgeführt werden, dass der Abfrage-Relaxation-Service die Anforderung vom Konversationssystem empfängt (das „Ja“ bei Operation 315). In einem solchen Fall erhält der Abfrage-Relaxation-Service beispielhaft Domäneninhalte von der externen Wissensquelle.
  • 4 veranschaulicht ein Beispiel für das Einlesen von SNOMED-CT® in einen Relaxations-Service in Übereinstimmung mit einer veranschaulichten Ausführungsform.
  • Bezüglich 3 und 4 wird beispielhaft die externe Wissensquelle (SNOMED-CT®) in eine grafische Datenbank des Relaxations-Services eingelesen. Ein nicht einschränkendes Beispiel für eine solche graphische Datenbank ist JanusGraph®.
  • Unter Bezugnahme auf 4 wird durch Verwendung der Konzepte, Beziehungen und Beschreibungen eine Liste 430, die eine Knotenliste 435 und eine Kantenliste 440 beinhaltet, erzeugt/aktualisiert und in der Graphen-Datenbank des Relaxations-Services 450 gespeichert. Die medizinischen Versorgungsdaten 445 sind mit SNOMED-CT® verknüpft. Eine skalierbare Graphen-Datenbank 460 ist für die Speicherung und Abfrage von Graphen optimiert, die Knoten und Kanten umfassen, die über einen Multi-Maschinen-Cluster in einer skalierbaren Graphen-Datenbank verteilt sind, die für die Speicherung und Abfrage von Graphen optimiert ist. In der veranschaulichenden Ausführungsform beinhalten die skalierbaren Graphen-Daten 460 beispielsweise JanusGraph®, sind aber nicht darauf beschränkt, da auch andere Typen von Graphen (z. B. Neo4j) verwendet werden können, um Daten und die Beziehungen zwischen ihnen darzustellen.
  • Unter Bezugnahme auf 4 wird gezeigt, dass SNOMED-CT® 405 nach Konzepten, 410, Beziehungen 415 und Beschreibungen 420 gruppiert werden kann. Im Falle von SNOMED-CT® ist isA zwar die dominierende Beziehung, aber es gibt mindestens 19 Typen von Beziehungen in SNOMED-CT®. Zu jeder Beziehung gibt es eine Beschreibung und Synonyme. Beim Einlesen der Wissensquelle ist es daher von Vorteil, auch die Synonyme der Wissensquelle zu umfassen. Die Synonyme können das Domänenvokabular ferner erweitern, um hohe Präzisionsergebnisse und einen hohen Recall zu erhalten.
  • Bei einer Herangehensweise zum Auffinden von Suchbegriffen kann ein Suchbegriff in der SNOMED-CT®-Taxonomie verortet werden, und es kann eine Radius-basierte Herangehensweise verwendet werden, die alle Begriffe findet, die sich innerhalb eines Radius r (r Hops) befinden, die Begriffe ermittelt, die in einer medizinischen Wissensdatenbank enthalten sind, und diese Begriffe als verwandte Begriffe zum Suchbegriff zurückgibt. r kann entweder vorbestimmt oder dynamisch in Abhängigkeit von der Anwendung festgelegt werden. Die Radius-basierte Herangehensweise sollte jedoch durch eine andere Herangehensweise ergänzt werden, um eine Zunahme der Präzision und des Recalls der Suche durch die Bereitstellung einer hybriden Herangehensweise liesten.
  • Der Informationsinhalt (information content, IC) kann berechnet werden, um zu ermitteln, wie viel zwei Knoten gemeinsam haben. Es kann eine Identifizierung erfolgen, welche Begriffe häufiger bzw. seltener genannt werden und in welcher Beziehung sie über die isA zueinander stehen. Das Verhältnis von Schnittmenge (gleiche Information) vs. Vereinigung von Information kann auf Grundlage des niedrigsten gemeinsamen Vorgängers (lowest common ancestor, LCA) erhalten werden. Der LCA beinhaltet jede Information, die zwei Knoten gemeinsam haben, und der Informationsgehalt ist kontextbewusst (z. B. unerwünschte Wirkung oder Dosierung). Beispielhaft steht ein IC im Kontext der Verwendung eines Medikaments zur Behandlung einer Erkrankung, ein anderer IC im Kontext der unerwünschten Wirkungen des Medikaments. In Abhängigkeit vom Kontext kann also das gleiche Wort eine unterschiedliche Bedeutung haben, und die Präzision der semantisch verwandten Begriffe kann dadurch weniger genau sein, insbesondere wenn die Suche erweitert wird. In Abhängigkeit vom Kontext werden die mit dem spezifischen Kontext verknüpften Informationen verwendet, um genauere Ergebnisse bereitzustellen.
  • 5 ist ein beispielhaftes Layout der strukturellen Informationen in isA-Pfaden, in Übereinstimmung mit einer veranschaulichenden Ausführungsform. Wie in 5 dargestellt, ist die höchste Ebene der kraniofaziale Schmerz 505 und die verschiedenen Pfade führen dorthin. Beispielhaft führt ein Pfad von einem frontalen Kopfschmerz 509 zum generalisierten Kopfschmerz 507 und dann zum kraniofazialen Schmerz 509. Hinzufügung ist ein Kopfschmerz bei Analgetika-Übergebrauch 511 eine spezialisierte Version des Kopfschmerzes bei Arzneimittel-Übergebrauch 513 und noch spezieller als der allgemeine Begriff Kopfschmerz 509. In beiden Fällen führen die Wege zu einem allgemeineren Begriff des Kopfschmerzes und dann zu noch mehr kraniofazialen Schmerzen 505. Ein Schmerz in der Mundhöhlenstruktur 515 ist ein speziellerer Begriff als der allgemeinere kraniofaziale Schmerz. In Abhängigkeit vom Inhalt der Abfrage des Benutzers sind einige dieser Pfade eine Quelle von Rauschen. Gemäß einer veranschaulichenden Ausführungsform wird die Verallgemeinerung bestraft, weil sie zu einem Verlust an Information führt. Eine frühere Generalisierung im Pfad wird stärker benachteiligt als eine spätere. Das Ähnlichkeitsergebnis kann die bestrafte Verallgemeinerung verwirklichen.
  • Schließlich werden alle diese Häufigkeiten normalisiert, so dass ihre Werte zwischen 0 und 1 liegen, was der Wahrscheinlichkeit des Vorkommens eines Konzepts im Korpus entspricht. Das Wurzelkonzept hat die höchste normalisierte Häufigkeit von 1, da es der Vorgänger aller Konzepte in der externen Wissensquelle ist.
  • Unter fortgesetzter Bezugnahme auf 5 ist zu erkennen, dass der Schmerz einer Mundhöhlenstruktur 515 den gleichen Abstand (z. B. 2) zu einem generalisierten Kopfschmerz 511 aufweist wie der Kopfschmerz bei Analgetika-Übergebrauch 513. Der Schmerz einer Mundhöhlenstruktur 515 steht jedoch in keinem so großen semantischen Zusammenhang mit einer Suche nach Kopfschmerzen und deren Ursachen. Zur Ermittlung der Ähnlichkeit der Begriffe in den strukturellen Informationen können die folgenden Gleichungen verwendet werden: I C ( c ) = l o g ( ƒ r e q ( c ) )
    Figure DE112020003141T5_0002
    ƒ r e q ( c ) = | c | + i = 1 n | c i |
    Figure DE112020003141T5_0003
    s i m I C ( c 1 , c 2 ) = 2 × I C ( l c s ( c 1 , c 2 ) ) I C ( c 1 ) + I C ( c 2 )
    Figure DE112020003141T5_0004
    p c 1 , c 2 = i | D | w i D i
    Figure DE112020003141T5_0005
    s i m ( c 1 , c 2 ) = p c 1 , c 2 × s i m I C ( c 1 , c 2 )
    Figure DE112020003141T5_0006
    wobei:
    • IC der Informationsinhalt ist,
    • |D| der Abstand zwischen dem Instanzkonzept C1 und dem verwandten Konzept C2 ist, und
    • Wi die Gewichtung der i-ten Beziehung von C1 zu C2 ist.
  • 6 ist ein Ausschnitt aus SNOMED-CT®, in dem die Instanz-Konzept-Häufigkeit eingetragen ist. Wenn ein Begriff erscheint, wird davon ausgegangen, dass seine Vorgänger aufgrund der isA-Beziehung ebenfalls vorkommen. Beispielhaft ist „Kopfschmerz“ das einzige untergeordnete Element von „kraniofazialer Schmerz“, und die Häufigkeit von „kraniofazialer Schmerz“ ist die Häufigkeit von sich selbst zusammen mit der von „Kopfschmerz“. Die Konzepte in Rot sind diejenigen, die mit den Daten in der gegebenen KB übereinstimmen. In diesem Fall ist die endgültige Häufigkeit von „Schmerzen im Kopf- und Nackenbereich“ eine Summierung der Häufigkeiten von „kraniofazialer Schmerz“, „Schmerzen im Hals“ und von sich selbst. Jedes Konzept kann in zwei Kontexten verwendet werden: „Risiko“ und „Indikation“. Daher werden mit jedem Begriff zwei Häufigkeiten verknüpft.
  • 7 und 8 sind veranschaulichende Beispiele, die die hybride Herangehensweise der vorliegenden Offenlegung mit einer Radius-basierten Herangehensweise in Übereinstimmung mit einer veranschaulichten Ausführungsform vergleichen. 7 ist ein Beispiel der Items, die mit einer Nierenschädigung verknüpft sind, und 8 listet Items auf, die mit einer Depression verknüpft sind. In den 7 und 8 ist zu erkennen, dass die hybride Herangehensweise durch das Einbeziehen einer Ähnlichkeitsmetrik zusätzlich zu einem Abstand (Radius) präzisere Informationen aus der externen Wissensquelle bereitstellt, die als Reaktion auf ein Abfrageergebnis von einem Konversationssystem bereitgestellt werden können. Die Radius-basierte Herangehensweise beinhaltet das Auffinden des Suchbegriffs in der SNOMED-CT®-Taxonomie, das Finden aller Begriffe, die sich innerhalb des Radius r (r Hops) befinden, das Ermitteln der Begriffe, die in einer Wissensbasis des medizinischen Versorgung enthalten sind, und das Zurückgeben der Begriffe, die mit dem Suchbegriff verwandt sind. Wie in den 7 und 8 zu sehen ist, beinhaltet die Radius-basierte Herangehensweise jedoch Unzulänglichkeiten, die u. a. das Fehlen semantisch verwandter Begriffe im Vergleich zu vielen (unnötigen) Begriffen und das Versagen bei der Unterscheidung von Begriffen mit demselben Abstand umfassen. Die Radius-basierte Herangehensweise weist einen hohen Recall, aber eine geringe Präzision auf.
  • Im Hinblick auf die hybride Herangehensweise, die in den 7 und 8 dargestellt ist, verwendet ein hybrides Ähnlichkeitsmaß die statistischen Informationen über die Verwendungsmuster bezüglich der Erkrankungen aus dem Textkorpus. Die strukturellen Informationen aus der externen Wissensquelle, die kontextuellen Informationen aus den Abfragen und der Informationsinhalt werden verwendet, um semantisch verwandte Begriffe bereitzustellen, die die Abfrage mit hoher Präzision und hohem Recall beantworten, wie aus den Ähnlichkeitsbewertungen ersichtlich ist. Bei der hybriden Herangehensweise stellt die Worthäufigkeit die statistische Information über die Erkrankungen bereit. Bezüglich der strukturellen Information werden die Kanten nicht gleich erschaffen. Es wird eine Hyponymie-Beziehung (isA) und eine Hyperonymie-Beziehung (hasA) berücksichtigt. Der Abstand von einem Suchbegriff (Radius) spielt immer noch eine Rolle, und die Verallgemeinerung vom Suchbegriff wird abgezogen/nicht zugelassen (siehe die Diskussion bezüglich 5 und die Bestrafung der Verallgemeinerung).
  • Es versteht sich, dass die erfinderischen Konzepte der vorliegenden Offenlegung nicht auf die Anwendung in einer bestimmten Umgebung wie der medizinischen Versorgung beschränkt sind. Die Ontologie der medizinischen Versorgungsdomäne wurde erörtert, um die Operation des Systems und Verfahrens zur Abfrage-Relaxation zu veranschaulichen. Das Meta-Konzept „Befund“ ist sowohl mit „Indikation“ als auch mit „Risiko“ verbunden. In diesem Fall hat jedes Instanzkonzept von „Befund“ zwei Konzepthäufigkeiten, die mit „Indikation“ und „Risk“ korrespondieren. In Abhängigkeit vom Abfragekontext wird eine der Konzepthäufigkeiten zur Abfrage-Relaxation verwendet.
  • Der Korpus kann viele Dokumente umfassen und jedes Dokument beinhaltet eine bestimmte Anzahl von Instanzkonzepten. Eine Möglichkeit, die Dünnbesiedelung (sparsity) bestimmter Instanzkonzepte im Korpus zu berücksichtigen, besteht darin, die Konzept-Häufigkeit ferner auf Grundlage der Anzahl der Dokumente anzupassen, in denen das Konzept vorkommt. Beispielhaft ist „Asthma“ gemäß DrugBank [DrugBank, 2019] mit vielen Medikamenten behandelbar (z. B. insgesamt etwa 54 Medikamente), während „Lungenkrebs“ nur mit einer Handvoll spezieller Medikamente behandelbar ist. Daher können die verwendeten Verfahren die Einseitigkeit auf effiziente Weise abmildern.
  • Schließlich können alle Instanzkonzepte von der gegebenen KB auf die externe Wissensquelle abgebildet werden. Die Verwendung von exakten String-Matching-Algorithmen kann dabei helfen, die passenden Konzepte zu finden. Approximative String-Matching-Algorithmen können auch verwendet werden, um semantisch verwandte Begriffe bereitzustellen, wenn es nur wenige oder keine exakten Übereinstimmungen gibt.
  • Ein Offline-Adaptionsverfahren passt externe, domänenspezifische Wissensquellen an und integriert sie in eine vorhandene Wissensbasis (KB) eines kognitiven Konversationssystems. Jedes Instanzkonzept kann in Abhängigkeit von der natürlichsprachlichen Abfrage in unterschiedlichen Kontexten verwendet werden, und ein Konzept kann in unterschiedlichen Kontexten völlig unterschiedliche semantische Bedeutungen haben. Beispielhaft ist eine Erkrankung, die durch ein Medikament behandelt wird, anders als eine unerwünschte Wirkung, die durch das gleiche Medikament verursacht wird. In diesem Fall würde eine einzige Häufigkeit, die mit einem Konzept verknüpft ist, nicht ausreichen, um die semantischen Unterschiede in allen möglichen Kontexten zu erfassen. Um dieses Problem zu lösen, werden alle Kontexte in der Domänen-Ontologie berechnet, wobei ein Instanzkonzept verwendet werden kann, und die Instanz-Konzept-Häufigkeit wird in Bezug auf jeden Kontext erfasst. In der Phase der Online-Abfrage-Relaxation wird die geeignete Konzepthäufigkeit entsprechend dem Abfragekontext ausgewählt.
  • In einer Ausführungsform besteht eine externe Wissensquelle aus den Hyperonym-Hyponym-Beziehungen (hasA und isA) zwischen Instanzkonzepten. Hyponym-Beziehungen (isA) führen oft zu Informationsverlusten, da sie zu allgemeineren Konzepten führen. In diesem Fall kann es unzureichend sein, sich ausschließlich auf das IC-Maß mit kontextuellen Informationen zu verlassen, da es die in Hyperonym-Hyponym-Beziehungen verborgenen semantischen Unterschiede nicht unterscheiden kann. Dieses Problem wird dadurch gelöst, dass den isA- und hasA-Beziehungen in der externen Wissensquelle unterschiedliche Gewichte zugewiesen werden. Das Gewicht eines Pfades, der zwei Instanzkonzepte c1 (Suchkonzept) und c2 (verwandtes Konzept) verbindet, wird wie folgt berechnet: p c 1 , c 2 = i | D | w i D i
    Figure DE112020003141T5_0007
  • Bezug nehmend auf die obige Gleichung 4 ist |D| ein Abstand zwischen dem Instanzkonzept C1 und dem verwandten Konzept C2 und Wi ist das Gewicht der i-ten Beziehung von C1 zu C2. Die Ergebnisse für das berechnete Gewicht eines Pfades für jeweils zwei Instanzkonzepte basieren auf Ähnlichkeitsscores, und es werden die relaxierten Ergebnisse ausgegeben, bei denen die Ähnlichkeitsscores einen höchsten Ergebnisbereich betragen.
  • Eine beispielhafte Computerplattform
  • Wie oben erörtert, können Funktionen, die sich auf die Durchführung eines Systems und Verfahrens zur Abfrage-Relaxation beziehen, unter Verwendung eines oder mehrerer Computergeräte ausgeführt werden, die zur Datenkommunikation über drahtlose oder drahtgebundene Kommunikation verbunden sind, wie in 1 und gemäß den Prozessen 300 von 3 gezeigt. 9 veranschaulicht ein funktionales Blockdiagramm einer Computer-Hardware-Plattform, die mit einem Konversationssystem, wie hierin beschrieben, kommunizieren kann. 9 veranschaulicht insbesondere eine Netzwerk- oder Host-Computerplattform 900, die zur Implementierung des Systems zur Abfrage-Relaxation von 1 verwendet werden kann.
  • Die Computerplattform 900 kann eine Zentralverarbeitungseinheit (CPU) 904, ein Festplattenlaufwerk (HDD) 906, einen Direktzugriffspeicher (RAM) und/oder einen Nur-LeseSpeicher (ROM) 908, eine Tastatur 910, eine Maus 912, eine Anzeige 914 und eine Kommunikationsschnittstelle 916 beinhalten, die mit einem Systembus 902 verbunden sind.
  • In einer Ausführungsform umfasst die Festplatte 906 Ressourcen, die die Speicherung eines Programms beinhalten, das verschiedene Prozesse, wie das System zur Abfrage-Relaxation 940, in der hier beschriebenen Weise ausführen kann. Das System zur Abfrage-Relaxation 940 kann verschiedene Module haben, die so konfiguriert sind, dass sie unterschiedliche Funktionen ausführen. Die HDD 906 kann Datenspeicher beinhalten.
  • Beispielhaft kann es ein Übersetzungsindexmodul 942 geben, das Abfragen von Quellen wie verschiedenen Typen von Konversationssystemen empfängt, und ein Instanzdatenmodul 944, das eine Suche nach Instanzdaten durchführt, wie hierin oben beschrieben.
  • In einer Ausführungsform gibt es ein optionales Modul 946 zur Verarbeitung natürlicher Sprache (natural language processing, NLP), das den rohen natürlichsprachlichen Inhalt jeder Abfrage verarbeitet. Der Grund dafür, dass das NLP-Modul 946 optional ist, ist, dass das Konversationssystem anfänglich die Verarbeitung der Abfrage des Benutzers in natürlicher Sprache ausführen kann. Es kann ein Modul 948 für externes Domänenwissen vorhanden sein, das eine Schnittstelle zu externen Domänensystemen bildet und semantisch verwandte Begriffe sucht und einem Konversationssystem bereitstellt, das eine Abfrage empfangen hat. Es kann ein maschinelles Lernmodul 950 vorhanden sein, das während einer Trainierphase aus früheren Interaktionen mit einer oder mehreren domänenspezifischen Abfragen lernt.
  • In einer Ausführungsform kann ein Programm, wie z.B. Apache™, für den Betrieb des Systems als Webserver gespeichert werden. In einer Ausführungsform kann auf der Festplatte 906 eine ausführende Anwendung gespeichert werden, die ein oder mehrere Bibliothekssoftwaremodule beinhaltet, wie z. B. die für das Java™ Runtime Environment-Programm zur Verwirklichung einer JVM (Java™ Virtual Machine).
  • Eine beispielhafte Cloud-Plattform
  • Wie oben erörtert, können die Funktionen, die sich auf die Verwaltung des Systems und des Verfahrens zur Abfrage-Relaxation beziehen, eine Cloud 1050 umfassen (siehe 10). Es soll verstanden werden, dass, obwohl diese Offenbarung eine detaillierte Beschreibung des Cloud-Computing beinhaltet, wie es hier unten erörtert wird, die Umsetzung der hier dargelegten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist. Vielmehr können Ausführungsformen der vorliegenden Offenlegung in Verbindung mit jedem anderen Typ von Computer-Umgebung implementiert werden, der heute bekannt ist oder später entwickelt wird.
  • Cloud Computing ist ein Modell zur Bereitstellung von Diensten, das einen bequemen, bedarfsgerechten Netzzugang zu einem gemeinsamen Vorrat konfigurierbarer Computerressourcen (z. B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Speicher, Anwendungen, virtuelle Maschinen und Dienste) ermöglicht, die mit minimalem Verwaltungsaufwand oder minimaler Interaktion mit einem Anbieter des Dienstes schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Charakteristiken, mindestens drei Service-Modelle und mindestens vier Bereitstellungsmodelle beinhalten.
  • Die Charakteristiken lauten wie folgt:
    • Bedarfsgesteuerte Selbstbedienung: Ein Cloud-Verbaucher kann einseitig Ressourcen für Berechnungen bereitstellen, wie z. B. Serverzeit und Netzwerkspeicher, und zwar automatisch, ohne dass eine menschliche Interaktion mit dem Anbieter des Dienstes erforderlich ist.
  • Breiter Netzwerkzugriff: Die Ressourcen sind über ein Netzwerk verfügbar und werden über Standardmechanismen abgerufen, die die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z. B. Mobiltelefone, Laptops und PDAs) fördern.
  • Ressourcenbündelung: Die Computer-Ressourcen des Anbieters werden in einem Multi-Tenant-Modell gebündelt, um mehrere Verbraucher zu bedienen, wobei verschiedene physische und virtuelle Ressourcen je nach Bedarf dynamisch zugewiesen und neu zugewiesen werden. Es besteht eine gewisse Standortunabhängigkeit, da der Verbraucher in der Regel keine Kontrolle oder Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, jedoch den Standort auf einer höheren Abstraktionsebene angeben kann (z. B. Land, Staat oder Rechenzentrum).
  • Flexible Anpassungsfähigkeit: Ressourcen können schnell und elastisch bereitgestellt werden, in manchen Fällen auch automatisch, um schnell zu skalieren und schnell wieder freigegeben werden, um schnell zu skalieren. Für den Verbraucher erscheinen die für die Bereitstellung verfügbaren Ressourcen oft unbegrenzt und können in beliebiger Menge und zu jeder Zeit erworben werden.
  • Dienstmessung: Cloud-Systeme kontrollieren und optimieren automatisch die Ressourcennutzung, indem sie eine dem Typ des Dienstes entsprechende Steuereinheit auf einer bestimmten Abstraktionsebene verwenden (z. B. Speicher, Verarbeitung, Bandbreite und aktive Benutzerkonten). Die Ressourcennutzung kann überwacht, kontrolliert und gemeldet werden, wodurch Transparenz sowohl für den Anbieter als auch für den Nutzer des genutzten Dienstes bereitgestellt wird.
  • Die Service-Modelle lauten wie folgt:
    • Software as a Service (SaaS): Die dem Verbraucher bereitgestellte Ressource besteht darin, die Anwendungen des Anbieters zu verwenden, die auf einer Cloud-Infrastruktur laufen. Der Zugriff auf die Anwendungen erfolgt von verschiedenen Mandant-Geräten aus über eine Thin-Client-Schnittstelle wie z. B. einen Webbrowser (z. B. webbasierte E-Mail). Der Verbraucher verwaltet oder kontrolliert nicht die zugrunde liegende Cloud-Infrastruktur, einschließlich Netzwerk, Server, Betriebssysteme, Steuereinheiten oder sogar einzelne Anwendungsressourcen, mit der möglichen Ausnahme begrenzter benutzerspezifischer Anwendungskonfigurationseinstellungen.
  • Platform as a Service (PaaS): Die dem Verbraucher bereitgestellte Ressource besteht darin, vom Verbraucher erstellte oder erfasste Anwendungen, die mit vom Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Verbraucher verwaltet oder kontrolliert nicht die zugrunde liegende Cloud-Infrastruktur, die Netzwerke, Server, Betriebssysteme oder Steuereinheiten umfasst, hat aber die Kontrolle über die bereitgestellten Anwendungen und möglicherweise über die Konfigurationen der Hosting-Umgebung der Anwendungen.
  • Infrastructure as a Service (laaS): Die dem Verbraucher bereitgestellte Ressource besteht in der Bereitstellung von Verarbeitungs-, Speicher-, Netzwerk- und anderen grundlegenden Computer-Ressourcen, wobei der Verbraucher in der Lage ist, beliebige Software einzusetzen und auszuführen, die Betriebssysteme und Anwendungen umfassen kann. Der Verbraucher verwaltet oder kontrolliert nicht die zugrunde liegende Cloud-Infrastruktur, sondern hat die Kontrolle über Betriebssysteme, Speicher, bereitgestellte Anwendungen und möglicherweise eine begrenzte Kontrolle über ausgewählte Netzwerkkomponenten (z. B. Host-Firewalls).
  • Die Bereitstellungsmodelle lauten wie folgt:
    • Private Cloud: Die Cloud-Infrastruktur wird für lediglich eine Organisation betrieben. Sie kann von der Organisation selbst oder von einem Dritten verwaltet werden und sich an Ort und Stelle oder an einem anderen Ort befinden.
  • Gemeinschafts-Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezifische Gemeinschaft mit gemeinsamen Anliegen (z. B. Aufgabe, Sicherheitsanforderungen, Richtlinie und Einhaltung von Gesetzen und Richtlinien). Sie kann von den Organisationen selbst oder von einem Dritten verwaltet werden und sich an Ort und Stelle oder an einem anderen Ort befinden.
  • Öffentliche Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Branchengruppe bereitgestellt und ist Eigentum einer Organisation, die Cloud-Dienste verkauft.
  • Hybrid-Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren (privaten, Gemeinschafts- oder öffentlichen) Clouds, die eigenständige Einheiten bleiben, aber durch eine standardisierte oder herstellerspezifische Technologie miteinander verbunden sind, die eine Portierbarkeit von Daten und Anwendungen ermöglicht (z. B. das Cloud-Bursting für den Lastausgleich zwischen Clouds).
  • Eine Cloud-Datenverarbeitungsumgebung ist dienstorientiert, wobei der Schwerpunkt auf Zustandslosigkeit, geringer Kopplung, Modularität und semantischer Kompatibilität liegt. Im Mittelpunkt einer Cloud-Datenverarbeitung steht eine Infrastruktur, die ein Netzwerk von miteinander verbundenen Knoten umfasst.
  • Unter Bezugnahme auf 10 wird nun eine veranschaulichende Cloud-Computing-Umgebung 1000 dargestellt, die Cloud-Computing nutzt. Wie dargestellt, beinhaltet die Cloud-Computing-Umgebung 1000 eine Cloud 1050 mit einem oder mehreren Cloud-Computing-Knoten 1010, mit denen lokale Rechengeräte, die von Verbrauchern in der Cloud verwendet werden, wie z. B. PDAs (Personal Digital Assistant) oder Mobiltelefone 1054A, Desktop-Computer 1054B, Laptops 1054C und/oder Computersysteme für Kraftfahrzeuge 1054N, kommunizieren können. Die Knoten 1010 können miteinander kommunizieren. Sie können physisch oder virtuell in einem oder mehreren Netzwerken gruppiert sein (nicht dargestellt), wie z. B. in privaten, Community-, öffentlichen oder hybriden Clouds, wie oben beschrieben, oder einer Kombination davon. Auf diese Weise kann die Cloud-Computing-Umgebung 1000 Infrastruktur, Plattformen und/oder Software als Services anbieten, für die ein Verbraucher in der Cloud keine Ressourcen auf einem lokalen Rechengerät beibehalten muss. Es wird verstanden, dass die in 10 dargestellten Typen von Rechengeräten 1054A-N nur zur Veranschaulichung dienen und dass die Rechenknoten 1010 und die Cloud-Computing-Umgebung 100 mit jedem Typ von ComputerGerät über jede Art von Netzwerk und/oder netzwerkadressierbare Verbindung (z. B. unter Verwendung eines Webbrowsers) kommunizieren können.
  • Unter Bezugnahme auf 11 wird nun eine Reihe von funktionalen Abstraktionsschichten gezeigt, die von der Cloud-Computing-Umgebung 1000 (2) bereitgestellt werden. Es sollte im Voraus verstanden werden, dass die in 2 dargestellten Komponenten, Schichten und Funktionen nur zur Veranschaulichung dienen und die Ausführungsformen der Offenlegung nicht darauf beschränkt sind. Wie gezeigt, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
  • Die Hardware- und Software-Schicht 1160 umfasst Hardware- und SoftwareKomponenten. Beispiele für Hardware-Komponenten beinhalten: Großrechner 1161; Server auf der Grundlage der RISC-Architektur (Reduced Instruction Set Computer) 1162; Server 1163; Blade-Server 1164; Speichergeräte 1165 sowie Netzwerke und Netzwerkkomponenten 1166. In einigen Ausführungsformen beinhalten die Softwarekomponenten Netzwerk-Anwendungsserversoftware 1167 und Datenbanksoftware 1168.
  • Die Virtualisierungsschicht 1170 beinhaltet eine Abstraktionsschicht, auf der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 1171, virtuelle Speicher 1172, virtuelle Netzwerke 1173, einschließlich virtueller privater Netzwerke, virtuelle Anwendungen und Betriebssysteme 1174 und virtuelle Mandanten 1175.
  • In einem Beispiel kann die Verwaltungsschicht 1180 die im Folgenden beschriebenen Funktionen bereitstellen. Die Ressourcenbereitstellung 1181 stellt die dynamische Beschaffung von Computer-Ressourcen und anderen Ressourcen bereit, die zum Ausführen von Aufgaben innerhalb der Cloud-Computing-Umgebung genutzt werden. Metering und Pricing 1182 stellen die Kostenverfolgung bei der Nutzung von Ressourcen in der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Lizenzen für Anwendungssoftware beinhalten. Sicherheit stellt die Identitätsprüfung für Verbraucher und Aufgaben in der Cloud sowie den Schutz von Daten und anderen Ressourcen bereit. Das Benutzerportal 1183 stellt den Zugang zur Cloud-Computing-Umgebung für Verbraucher und Systemadministratoren bereit. Das Service-Level-Management 1184 stellt die Zuweisung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die erforderlichen Service-Levels eingehalten werden. Die Planung und Erfüllung von Service Level Agreements (SLA) 1185 stellt die Anordnung und Beschaffung von Cloud-Computing-Ressourcen bereit, für die ein zukünftiger Bedarf gemäß einem SLA erwartet wird.
  • Die Schicht 1190 „Arbeitslasten“ stellt Beispiele für Funktionen bereit, für die die Cloud-Computing-Umgebung genutzt werden kann. Beispiele für Arbeitslasten und Funktionen, die von dieser Schicht aus bereitgestellt werden können, umfassen: Mapping und Navigation 1191; Softwareentwicklung und Lebenszyklusmanagement 1192; Bereitstellung von Unterricht in virtuellen Klassenzimmern 1193; Datenanalyseverarbeitung 1194; Transaktionsverarbeitung 1195; und Durchführung eines Abfrage-Relaxations-Services 1196, wie hier erörtert.
  • Schlussfolgerung
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Lehren wurden zum Zweck der Veranschaulichung erstellt, sie sollen aber keineswegs erschöpfend oder auf die offenbarten Ausführungsformen eingeschränkt sein. Für Fachleute sind viele Modifizierungen und Variationen offenkundig, die nicht von dem Schutzumfang und Erfindungsgedanken der beschriebenen Ausführungsformen abweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt gefundenen Technologien bestmöglich zu erklären oder anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
  • Das Vorstehende wurde unter Berücksichtigung dessen, was als bester Zustand erachtet wurde und/oder anderen Beispielen beschrieben, doch sollte klar sein, dass verschiedene Modifizierungen vorgenommen werden können, und dass die hierin offenbarte Thematik in verschiedenen Formen und Beispielen umgesetzt werden kann, und dass die Lehren auf zahlreiche Anwendungsmöglichkeiten angewendet werden können, von denen nur einige hierin beschrieben wurden. Sämtliche Anwendungen, Modifizierungen und Variationen, die unter den zutreffenden Schutzumfang der vorliegenden Lehren fallen, sollen durch die folgenden Ansprüche beansprucht werden.
  • Die Komponenten, Schritte, Funktionen, Aufgaben, Nutzen und Vorteile, die hierin erörtert wurden, dienen nur zur Veranschaulichung. Weder sie noch die zugehörigen Erörterungen sollen den Umfang des Patentschutzes einschränken. Obwohl hierin verschiedene Vorteile erörtert worden sind, sollte klar sein, dass nicht alle Ausführungsformen notwendigerweise alle Vorteile aufweisen. Sofern nicht anders angegeben, sind alle Maßangaben, Werte, Bewertungen, Positionen, Größenordnungen, Größen und andere technische Daten, die in dieser Patentschrift einschließlich der folgenden Ansprüche dargelegt werden, ungefähre und keine exakten Angaben. Sie sollen einen sinnvollen Bereich angeben, der mit den Funktionen, auf die sie sich beziehen und mit dem in Einklang steht, was im Stand der Technik, zu dem sie gehören, üblich ist.
  • Zahlreiche andere Ausführungsformen werden ebenfalls in Erwägung gezogen. Diese umfassen Ausführungsformen mit weniger, zusätzlichen und/oder verschiedenen Komponenten, Schritten, Funktionen, Aufgaben, Nutzen und Vorteilen. Diese umfassen auch Ausführungsformen, in denen die Komponenten und/oder Schritte angeordnet und/oder anders angeordnet sind.
  • Aspekte der vorliegenden Offenlegung sind im vorliegenden Dokument unter Bezug auf eine Ablaufplandarstellung und/oder ein Blockschaubild eines Verfahrens, einer Vorrichtung (von Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der vorliegenden Offenlegung beschrieben. Es versteht sich, dass jeder Block der Ablaufplandarstellungen und/oder Blockschaubilder und Kombinationen aus Blöcken in den Ablaufplandarstellungen und/oder Blockschaubildern mit computerlesbaren Programmanweisungen implementiert sein kann bzw. können.
  • Diese computerlesbaren Programmanweisungen können einem Prozessor eines entsprechend konfigurierten Computers, eines Computers für besondere Zwecke oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zur Herstellung einer Maschine bereitgestellt werden, sodass die Anweisungen, die über den Prozessor des Computers oder der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, Mittel zum Implementieren der Funktionen/Handlungen erzeugen, die in dem Block oder den Blöcken der Ablaufpläne und/oder Blockschaubilder angegeben sind. Diese computerlesbaren Programmanweisungen können auch in einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten anweisen kann, auf eine Weise zu funktionieren, sodass das computerlesbare Speichermedium, in dem Anweisungen gespeichert sind, einen Herstellungsgegenstand aufweist, der Anweisungen enthält, die Aspekte der Funktion/Handlung realisieren, die in dem Block oder den Blöcken der Ablaufpläne und/oder Blockschaubilder angegeben ist.
  • Die computerlesbaren Programmanweisungen können auch in einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheit geladen werden, um zu bewirken, dass eine Reihe von Arbeitsschritten auf dem Computer, der anderen programmierbaren Vorrichtung oder der anderen Einheit ausgeführt wird, um einen auf einem Computer realisierten Prozess zu erzeugen, sodass die Anweisungen, die auf dem Computer oder der anderen programmierbaren Vorrichtung oder der anderen Einheit ausgeführt werden, die Funktinonen/Handlungen realisieren, die in dem Block oder den Blöcken des Ablaufplans und/oder Blockschaubilder angegeben sind.
  • Die Anrufablauf-, Ablaufplan- und Blockschaubilder in den vorliegenden Figuren veranschaulichen die Architektur, Funktionalität und Funktionsweise möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Offenlegung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, Segment oder einen Anweisungsbestandteil darstellen, das bzw. der eine oder mehrere ausführbare Anweisungen zur Realisierung der angegebenen Logikfunktion(en) aufweist. Bei einigen Realisierungsalternativen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren angegeben vorkommen. Zwei hintereinander dargestellte Blöcke können beispielsweise in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal in umgekehrter Reihenfolge ausgeführt werden, je nach betreffender Funktoinalität. Es sei auch festgehalten, dass jeder Block der Blockschaubilder und/oder Ablaufplandarstellung und Kombinationen aus Blöcken in den Blockschaubildern und/oder der Ablaufplandarstellung durch Systeme auf der Grundlage von Hardware für besondere Zwecke realisiert sein kann bzw. können, die die angegebenen Funktionen oder Handlungen ausführen, oder Kombinationen aus Hardware für besondere Zwecke und Computeranweisungen ausführt bzw. ausführen.
  • Das Vorstehende wurde in Verbindung mit beispielhaften Ausführungsformen beschrieben, doch sollte klar sein, dass der Begriff „beispielhaft“ nur als ein Beispiel und nicht als das Beste oder Optimale zu verstehen ist. Mit Ausnahme der unmittelbar vorhergehenden Ausführungen ist nichts von dem, was angegeben oder veranschaulicht worden ist, als Interpretation aufzufassen oder sollte so interpretiert werden, dass dies zu einem Verzicht auf eine Komponente, einen Schritt, eine Funktion, eine Aufgabe, einen Nutzen, einen Vorteil oder eine Entsprechung für die Öffentlichkeit führt, ohne Berücksichtigung dessen, ob eine Erwähnung in den Ansprüchen vorliegt.
  • Es sollte klar sein, dass die hierin verwendeten Begriffe und Ausdrücke die gewöhnliche Bedeutung von derartigen Begriffen und Ausdrücken in Bezug auf ihre jeweiligen Fachgebiete und Studienbereiche haben, ausgenommen in Fällen, in denen spezielle Bedeutungen für sie hierin dargelegt worden sind. Beziehungsbegriffe wie zum Beispiel erste/r/s und zweite/r/s und dergleichen können allein zum Unterscheiden einer Entität oder Aktion von einer anderen verwendet werden, ohne dass notwendigerweise irgendeine tatsächliche derartige Beziehung oder Reihenfolge zwischen derartigen Entitäten oder Aktionen erforderlich ist oder impliziert wird. Die Begriffe „weist auf“, „aufweisend“ oder jede andere Variation davon sollen eine nicht ausschließende Einbeziehung abdecken, sodass ein Prozess, Verfahren, Artikel oder eine Vorrichtung, die eine Liste von Elementen aufweisen, nicht nur diese Elemente enthalten, sondern auch andere Elemente enthalten können, die nicht ausdrücklich aufgeführt oder einem solchen Prozess, Verfahren, Artikel oder einer solchen Vorrichtung inhärent sind. Ein Element mit einem vorangestellten „ein/eine“ schließt ohne weitere Einschränkungen das Vorhandensein von weiteren identischen Elementen in dem Prozess, Verfahren, Artikel oder der Vorrichtung nicht aus, die das Element aufweisen.
  • Die Zusammenfassung der Offenbarung wird bereitgestellt, um dem Leser schnell die Natur der technischen Offenbarung zu vermitteln. Sie wird mit dem Verständnis unterbreitet, dass sie nicht für eine Interpretation oder Einschränkung des Schutzumfangs oder der Bedeutung der Ansprüche verwendet wird. Des Weiteren ist aus der vorstehenden „Ausführlichen Beschreibung“ ersichtlich, dass in verschiedenen Ausführungsformen verschiedene Funktionen zur Straffung der Offenbarung zusammengefasst worden sind. Dieses Offenbarungsverfahren soll keinesfalls als eine Absicht interpretiert werden, dass die beanspruchten Ausführungsformen mehr Funktionen haben als ausdrücklich in jedem Anspruch zitiert. Stattdessen, wie durch die folgenden Ansprüche wiedergegeben, ist der Erfindungsgegenstand in weniger als allen Funktionen einer einzelnen offenbarten Ausführungsform vorhanden. Somit werden die folgenden Ansprüche hiermit in die „Ausführliche Beschreibung“ aufgenommen, wobei jeder Anspruch für sich selbst als separat beanspruchter Gegenstand steht.

Claims (21)

  1. Nicht-flüchtiges, computerlesbares Speichermedium, das einen computerlesbaren Programmcode mit computerlesbaren Anweisungen enthält, die, wenn sie ausgeführt werden, ein Computergerät veranlassen, ein Verfahren zur Abfrage-Relaxation auszuführen, wobei das Verfahren umfasst: Empfangen einer Abfrage von einem Konversationssystem; Ermitteln mindestens eines Suchbegriffs in der Abfrage; Ausgeben von Instanzdaten an das Konversationssystem in Reaktion auf die Ermittlung, dass die Instanzdaten in einem Datenspeicher mit dem mindestens einen Suchbegriffs in der Abfrage übereinstimmen; Ausgeben der empfangenen Abfrage durch das Computergerät an eine externe domänenspezifische Wissensquelle in Reaktion auf die Ermittlung, dass der mindestens eine Suchbegriff nicht mit den Instanzdaten in dem Datenspeicher übereinstimmt; Empfangen von relaxierten Datenübereinstimmungen von der externen domänenspezifischen Wissensquelle durch das Computergerät, die semantisch mit mindestens einem Suchbegriff in der Abfrage auf Grundlage einer Mehrzahl von Kriterien verwandt sind; und Erzeugen einer Rückmeldung auf die Abfrage durch das Computergerät auf Grundlage kontextueller Information und struktureller Information.
  2. Nicht-flüchtiger computerlesbarer Speicher nach Anspruch 1, wobei die relaxierten Übereinstimmungen semantisch verwandte Begriffe sind, die durch das Computergerät auf Grundlage struktureller Information, die von der externen domänenspezifischen Wissensquelle erhalten wurde, der kontextuellen Information, die von der Abfrage erhalten wurde, und eines Informationsinhalts der Abfrage empfangen wurden.
  3. Nicht-flüchtiges, computerlesbares Speichermedium nach einem der vorangehenden Ansprüche, wobei die externe domänenspezifische Wissensquelle Daten in Form von mindestens einer von Taxonomien, Ontologien oder semantischen Netzwerken beinhaltet.
  4. Nicht-flüchtiges, computerlesbares Speichermedium nach einem der vorangehenden Ansprüche, das ferner die Indizierung von im Datenspeicher gespeicherten Datenwerten mit den Instanzdaten umfasst.
  5. Nicht-flüchtiges, computerlesbares Speichermedium nach einem der vorangehenden Ansprüche, das ferner das Einlesen der externen domänenspezifischen Wissensquelle in eine graphische Datenbank umfasst.
  6. Nicht-flüchtiges, computerlesbares Speichermedium nach einem der vorangehenden Ansprüche, wobei die externe domänenspezifische Wissensquelle nach Begriffen, Beziehung und Beschreibung gruppiert ist.
  7. Nicht-flüchtiges, computerlesbares Speichermedium nach einem der vorangehenden Ansprüche, wobei die Instanzdaten Variationen von semantisch verwandten Daten umfassen, die aus den Datenspeichern erhalten werden.
  8. System konfiguriert, um Abfrage-Relaxation auszuführen, umfassend: eine Mehrzahl von Datenspeichern; einen Übersetzungsindex, der konfiguriert ist, zum: Empfangen einer Abfrageausgabe von einem Konversationssystem; Bereitstellen einer Indizierung von Instanzdaten auf Datenwerte, die in der Mehrzahl von Datenspeichern gespeichert sind, und auf semantisch verwandte Begriffe; Ermitteln mindestens eines Suchbegriffs in der Abfrage; und Ausgeben von Instanzdaten an das Konversationssystem, wenn die Daten in den Datenspeichern mit dem mindestens einen Begriff in der Abfrage übereinstimmen; und einen externen domänenspezifischen Wissensindex, der konfiguriert ist, zum: Empfangen der Abfrage vom Übersetzungsindex, wenn es in den Datenspeichern keine Übereinstimmung mit dem mindestens einen Begriff gibt; Ausgeben der empfangenen Abfrage an eine externe domänenspezifische Wissensquelle, und Empfangen von relaxierten Daten von der externen domänenspezifischen Wissensquelle, die semantisch mit mindestens einem Suchbegriff in der Abfrage verwandt sind, wobei die relaxierten Daten auf Grundlage kontextueller Information und struktureller Information, die mit der Abfrage verknüpft ist, basieren, wobei das System eine Rückmeldung auf die Abfrage auf Grundlage kontextueller Information und struktureller Information erzeugt.
  9. System nach Anspruch 8, wobei die externe domänenspezifische Wissensquelle Daten in Form von einer oder mehreren Taxonomien, Ontologien oder semantischen Netzwerken beinhaltet.
  10. Das System nach einem der Ansprüche 8 bis 9, das ferner eine graphische Datenbank umfasst, in die die externe domänenspezifische Wissensquelle eingelesen ist.
  11. System nach einem der Ansprüche 8 bis 10, wobei die Instanzdaten Variationen von semantisch verwandten Daten beinhalten, die aus den Datenspeichern erhalten werden.
  12. System nach einem der Ansprüche 8 bis 11, wobei der externe domänenspezifische Wissensindex ferner so konfiguriert ist, dass er von der externen domänenspezifischen Wissensquelle empfangene relaxierte Daten verarbeitet, um eine oder mehrere Instanzkonzept-Häufigkeiten in der externen Wissensquelle zu ermitteln und eine oder mehrere tiefe Hierarchien in der externen Wissensquelle zu ermitteln.
  13. System nach Anspruch 12, wobei die externe domänenspezifische Wissensquelle mit Instanzkonzept-Häufigkeiten gefüllt ist.
  14. System nach einem der Ansprüche 8 bis 13, wobei der Übersetzungsindex ferner so konfiguriert ist, dass er Entitäten und Absichten in der von dem Konversationssystem empfangenen Abfrage parst.
  15. System nach einem der Ansprüche 8 bis 14, wobei der Übersetzungsindex ferner konfiguriert ist, um Konzepte, Beziehungen und Beschreibungen der externen domänenspezifischen Wissensquelle zu ermitteln.
  16. System nach Anspruch 15, ferner konfiguriert, um eine Hyponymie-Beziehung (isA) zwischen Klassen und Unterklassen der strukturellen Information zu ermitteln, wobei die Ähnlichkeit berechnet wird gemäß: I C ( c ) = l o g ( ƒ r e q ( c ) ) ;
    Figure DE112020003141T5_0008
    ƒ r e q ( c ) = | c | + i = 1 n | c i |
    Figure DE112020003141T5_0009
    s i m I C ( c 1 , c 2 ) = 2 × I C ( l c s ( c 1 , c 2 ) ) I C ( c 1 ) + I C ( c 2 ) ;
    Figure DE112020003141T5_0010
    p c 1 ,c 2 = i | D | w i D i ;
    Figure DE112020003141T5_0011
    sim ( c 1 ,c 2 ) = p c 1 ,c 2 × sim IC ( c 1 ,c 2 )
    Figure DE112020003141T5_0012
    wobei: IC der Informationsinhalt ist, | D | der Abstand zwischen dem Instanzkonzept C1 und dem verwandten Konzept C2 ist, und Wi die Gewichtung der i-ten Beziehung von C1 zu C2 ist.
  17. Computer-implementiertes Verfahren zum Ausführen von Abfrage-Relaxation, wobei das Verfahren umfasst: Empfangen, durch ein Computergerät, einer Abfrageausgabe von einem Konversationssystem; Ermitteln, durch das Computergerät, mindestens eines Suchbegriffs in der Abfrage; Ausgeben, durch das Computergerät, von Instanzdaten an das Konversationssystem in Reaktion auf die Ermittlung, dass die Instanzdaten in einem Datenspeicher mit dem mindestens einen Suchbegriff in der Abfrage übereinstimmen; Ausgeben, durch das Computergerät, der empfangenen Abfrage an eine externe domänenspezifische Wissensquelle in Reaktion auf die Ermittlung, dass der mindestens eine Suchbegriff nicht mit Instanzdaten in dem Datenspeicher übereinstimmt; Empfangen, durch das Computergerät, von relaxierten Datenübereinstimmungen von der externen domänenspezifischen Wissensquelle, bei denen es sich um Begriffe handelt, die semantisch mit mindestens einem Suchbegriff in der Abfrage verwandt sind, auf Grundlage einer Mehrzahl von Kriterien, die mit der Abfrage verknüpft sind; und Erzeugen, durch das Computergerät, einer Rückmeldung auf die Abfrage auf Grundlage kontextueller Information und struktureller Information.
  18. Computer-implementiertes Verfahren nach Anspruch 17, wobei die Mehrzahl von Kriterien semantisch verwandter Begriffe, die durch das Computergerät empfangen werden, eine strukturelle Information, die von der externen domänenspezifischen Wissensquelle erhalten wird, eine kontextuelle Information, die von der Abfrage erhalten wird, und Informationsinhalt der Abfrage beinhalten.
  19. Offline-Adaptionsverfahren zum Anpassen und Integrieren von externen Wissensdomänen-spezifischen Wissensquellen in eine vorhandene Wissensbasis (KB) eines kognitiven Konversationssystems, wobei das Verfahren umfasst: Erhalten einer Instanzkonzept-Häufigkeit aus der vorhandenen KB; Berechnen aller Kontexte, wobei eine Domänen-Ontologie, in der ein Instanzkonzept verwendet wird; und Abbilden aller Instanzkonzepte aus der vorhandenen KB auf eine externe domänenspezifische Wissensquelle, wobei die vorhandene KB so konfiguriert ist, dass sie in Reaktion auf eine von einem Konversationssystem empfangene natürlichsprachliche Abfrage nach semantisch verwandten Begriffen sucht.
  20. Verfahren nach Anspruch 19, das ferner umfasst: Einstellen der Instanzkonzept-Häufigkeit auf Grundlage einer Menge von Dokumenten, in denen das Instanzkonzept erscheint.
  21. Verfahren zum wirksamen Einsetzen von Informationsinhalt in einer vorhandenen Wissensbasis (KB), die so konfiguriert ist, dass sie unter Verwendung von Abfrage-Relaxation in Reaktion auf eine natürlichsprachliche Abfrage nach semantisch verwandten Begriffen sucht, wobei das Verfahren Folgendes umfasst: Zuweisen unterschiedlicher Gewichte zu einer Hyponymie-Beziehung (isA) und einer Hyperonym-Beziehung (hasA) in einer externen domänenspezifischen Wissensquelle; und Berechnen eines Gewichts eines Pfades, der zwei Instanzkonzepte C1 (Suchkonzept) und C2 (verwandtes Konzept) verbindet, gemäß dem Folgenden: p c 1 ,c 2 = i | D | w i D i
    Figure DE112020003141T5_0013
    wobei: | D | der Abstand zwischen C1 und C2 ist, und Wi die Gewichtung der i-ten Beziehung von C1 zu C2 ist; Sortieren der Ergebnisse für das berechnete Gewicht eines Pfades für jeweils zwei Instanzkonzepte auf Grundlage von Ähnlichkeitsscores; und Ausgeben von relaxierten Ergebnissen, bei denen die Ähnlichkeitsscores einen höchsten Ergebnisbereich betragen.
DE112020003141.1T 2019-08-09 2020-08-03 Abfrage-relaxation unter verwendung externen domänenwissenes zur beantwortung von abfragen Pending DE112020003141T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/537,496 US11841867B2 (en) 2019-08-09 2019-08-09 Query relaxation using external domain knowledge for query answering
US16/537,496 2019-08-09
PCT/IB2020/057335 WO2021028776A1 (en) 2019-08-09 2020-08-03 Query relaxation using external domain knowledge for query answering

Publications (1)

Publication Number Publication Date
DE112020003141T5 true DE112020003141T5 (de) 2022-03-24

Family

ID=74498650

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020003141.1T Pending DE112020003141T5 (de) 2019-08-09 2020-08-03 Abfrage-relaxation unter verwendung externen domänenwissenes zur beantwortung von abfragen

Country Status (6)

Country Link
US (2) US11841867B2 (de)
JP (1) JP7459227B2 (de)
CN (1) CN114222984A (de)
DE (1) DE112020003141T5 (de)
GB (1) GB2601936A (de)
WO (1) WO2021028776A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668259B (zh) * 2024-02-01 2024-04-26 华安证券股份有限公司 基于知识图谱的内外规数据联动分析方法及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
JP4650072B2 (ja) 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8001117B2 (en) * 2007-05-18 2011-08-16 Yahoo! Inc. Efficient online computation of diverse query results
US8458165B2 (en) 2007-06-28 2013-06-04 Oracle International Corporation System and method for applying ranking SVM in query relaxation
US10198503B2 (en) * 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
US8458180B2 (en) * 2010-04-30 2013-06-04 Microsoft Corporation Information exploration
US9396492B2 (en) 2010-10-15 2016-07-19 Opentable, Inc. Computer system and method for analyzing data sets and providing personalized recommendations
US20130246392A1 (en) * 2012-03-14 2013-09-19 Inago Inc. Conversational System and Method of Searching for Information
US10235639B1 (en) 2014-03-14 2019-03-19 Directly Software, Inc. Al based CRM system
US10585924B2 (en) * 2014-08-08 2020-03-10 Cuong Duc Nguyen Processing natural-language documents and queries
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
GB2537892A (en) * 2015-04-30 2016-11-02 Fujitsu Ltd A discovery informatics system, method and computer program
CN105677822A (zh) 2016-01-05 2016-06-15 首都师范大学 一种基于对话机器人的招生自动问答方法及系统
JP6753707B2 (ja) 2016-06-16 2020-09-09 株式会社オルツ コミュニケーションを支援する人工知能システム
US11157490B2 (en) * 2017-02-16 2021-10-26 Microsoft Technology Licensing, Llc Conversational virtual assistant
US10909441B2 (en) 2017-06-02 2021-02-02 Microsoft Technology Licensing, Llc Modeling an action completion conversation using a knowledge graph
CN107797984B (zh) 2017-09-11 2021-05-14 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107609101B (zh) 2017-09-11 2020-10-27 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107861951A (zh) 2017-11-17 2018-03-30 康成投资(中国)有限公司 智能客服中的会话主题识别方法
JP6925244B2 (ja) 2017-11-20 2021-08-25 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
US11120059B2 (en) * 2018-06-27 2021-09-14 Adobe Inc. Conversational query answering system
CN109582761A (zh) 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答系统方法
US11263277B1 (en) * 2018-11-01 2022-03-01 Intuit Inc. Modifying computerized searches through the generation and use of semantic graph data models

Also Published As

Publication number Publication date
GB2601936A (en) 2022-06-15
CN114222984A (zh) 2022-03-22
JP2022543324A (ja) 2022-10-11
GB202202524D0 (en) 2022-04-13
US11841867B2 (en) 2023-12-12
WO2021028776A1 (en) 2021-02-18
US20210042304A1 (en) 2021-02-11
US20240061850A1 (en) 2024-02-22
JP7459227B2 (ja) 2024-04-01

Similar Documents

Publication Publication Date Title
DE112018001876T5 (de) Adaptive beurteilung von metabeziehungen in semantischen graphen
DE112020003820T5 (de) Erkennung von Anomalien und Abweichungen unter Verwendung eines domänenindizierten Einschränkungs-Repository
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
DE112018002984T5 (de) Konformitätsbewusste Laufzeiterzeugung auf Grundlage von Anwendungsmustern und Risikobeurteilung
DE112018005167T5 (de) Aktualisieren von trainingsdaten
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
DE112020002110T5 (de) Ressourcenarme entitätsauflösung mit transfer learning
DE102017111438A1 (de) Api-lernen
DE112018003236T5 (de) Domänenspezifischer lexikalisch gesteuerter prä-parser
DE102013003055A1 (de) Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
DE102013207608A1 (de) Instrumentieren von Software-Anwendungen für die Konfiguration derselben
DE202012013462U1 (de) Datenverarbeitung in einem Mapreduce-Framework
DE112020002042T5 (de) Erzeugen eines absichtserkennungsmodells auf grundlage von randomisierten absichtsvektornäherungen
DE112018005076T5 (de) Erstellen einer rangfolge von dokumenten auf grundlage ihres semantischen reichtums
DE102014103279A1 (de) Pivot-Facets für Text-Mining und Suche
DE112021005422T5 (de) Auf lernen beruhende arbeitslast-ressourcenoptimierung für datenbank-managementsysteme
DE112018002266T5 (de) Kognitives Datenfiltern für Speicherumgebungen
DE112018004660T5 (de) Verwenden von kommentaren zum bereitstellen von optimierungen
DE112019001433T5 (de) Datenanonymisierung
DE202022002899U1 (de) Metadaten-Klassifizierung
DE112018002955T5 (de) Kognitive datei- und objektverwaltung für verteilte speicherumgebungen
DE112021004694T5 (de) Trainieren eines frage-antwort-dialogsystems zum vermeiden von gegnerischen angriffen
DE112020000545T5 (de) Deep-forest-modell-entwicklung und -training
DE112021004380T5 (de) Maschinelles merkmalslernen zur produktformulierung
DE102021123058A1 (de) Maskieren von sensiblen informationen in einem dokument

Legal Events

Date Code Title Description
R012 Request for examination validly filed