DE102019001267A1 - Dialogartiges System zur Beantwortung von Anfragen - Google Patents
Dialogartiges System zur Beantwortung von Anfragen Download PDFInfo
- Publication number
- DE102019001267A1 DE102019001267A1 DE102019001267.4A DE102019001267A DE102019001267A1 DE 102019001267 A1 DE102019001267 A1 DE 102019001267A1 DE 102019001267 A DE102019001267 A DE 102019001267A DE 102019001267 A1 DE102019001267 A1 DE 102019001267A1
- Authority
- DE
- Germany
- Prior art keywords
- link
- content
- collection
- documents
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Techniken, die einen Nutzer auf Grundlage einer semantischen Interpretation einer von dem Nutzer eingegebenen Anfrage zu Content leiten, implizieren ein Generieren von Links zu bestimmtem Content in einer Sammlung von Dokumenten in Reaktion auf eine Nutzerstringanfrage, wobei die Links auf Grundlage eines Antwortvorschlagsvorausschauindex generiert werden. Der Antwortvorschlagsvorausschauindex verweist auf eine Abbildung zwischen mehreren Gruppen von semantisch äquivalenten Begriffen und einem jeweiligen Link zu bestimmtem Content der Sammlung von Dokumenten. Diese Dokumente sind für die verallgemeinerte Aufgabe einer Beantwortung von Fragen in natürlicher Sprache von Nutzen.
Description
- Technisches Gebiet
- Die vorliegende Beschreibung betrifft ein Anfragebeantwortungssystem, das Verarbeitung natürlicher Sprache (Natural Language Processing NLP) nutzt.
- Hintergrund
- Manche Suchassistenten können mögliche Suchlinks generieren, wenn ein Nutzer Worte in ein Textkästchen des Suchassistenten eintippt. Tippt ein Nutzer beispielsweise die Frage „Wie entferne ich Teufelsaugen?“ ein, so kann der Suchassistent einen neuen Satz von Suchstrings präsentieren, die die Frage vorwegnehmen. Insbesondere kann der Suchassistent in Reaktion darauf, dass der Nutzer „Wie entferne ich“ eintippt, den String „Wie entferne ich eine App?“ präsentieren.
- Ein herkömmlicher Suchassistent generiert mögliche Suchstrings auf Grundlage einer Nachschlageoperation, die an einer Zusammenstellung von Suchstrings, die von einer großen Menge von Nutzern bereitgestellt worden ist, durchgeführt wird. Um beispielsweise in Reaktion darauf, dass ein Nutzer „Wie entferne ich“ eintippt, mögliche Suchstrings zu generieren, schlägt der Suchassistent alle möglichen Suchstrings, die die Worte „Wie entferne ich“ aufweisen, nach. Tippt der Nutzer zusätzliche Worte in das Textkästchen ein, so führt der Suchassistent die Nachschlageoperation dynamisch einschließlich des neuen Wortes durch, um einen neuen Satz von Suchstrings zu erzeugen. In Reaktion darauf, dass der Nutzer einen Suchstring wählt, zeigt der Suchassistent einen Satz von Suchergebnissen auf Grundlage von Standardsuchalgorithmen an.
- Der vorbeschriebene herkömmliche Suchassistent verfügt über keine Mittel, genaue Suchstrings auszugeben, wenn die von dem Nutzer eingetippte Frage keine Worte enthält, die in der Zusammenstellung von Suchstrings vorkommen. Es sind Versuche hinsichtlich eines intelligenteren Suchassistenten unternommen worden, der dazu fähig sein soll, in diesem Fall genaue Suchstrings zu generieren.
- Bedauerlicherweise hatten diese Versuche bislang allenfalls marginalen Erfolg.
- Zusammenfassung
- Bei einem allgemeinen Aspekt kann ein Verfahren ein Empfangen von Dokumentdaten beinhalten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet. Das Verfahren kann zudem ein Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten beinhalten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet. Das Verfahren kann des Weiteren ein Empfangen eines Nutzeranfragestrings beinhalten. Das Verfahren kann des Weiteren ein in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgendes Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare beinhalten, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird. Das Verfahren kann des Weiteren ein Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung beinhalten.
- Details einer oder mehrerer Implementierungen sind in der begleitenden Zeichnung und der nachfolgenden Beschreibung niedergelegt. Weitere Merkmale erschließen sich aus der Beschreibung und der Zeichnung sowie aus den Ansprüchen.
- Figurenliste
-
-
1 ist ein Diagramm zur Darstellung einer exemplarischen elektronischen Umgebung, in der hier beschriebene verbesserte Techniken implementiert sein können. -
2 ist ein Flussdiagramm zur Darstellung eines exemplarischen Verfahrens des Aufbauens der semantischen Vorausschaumaschine für den Suchassistenten entsprechend den verbesserten Techniken. -
3 ist ein Diagramm zur Darstellung eines exemplarischen Abschnittes eines Dokumentes einer Sammlung von Dokumenten eines Hilfesystems. -
4 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens einer semantischen Kommentardatei. -
5 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Dokumentobjektmodells (DOM) aus einer semantischen Kommentardatei. -
6 ist ein Diagramm zur Darstellung eines exemplarischen DOM für ein Dokument der Sammlung von Dokumenten. -
7 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Wissensgraphen für ein Dokument auf Grundlage des DOM für jenes Dokument. -
8 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Wissensgraphen, der für eine NLP-Pipeline (Verarbeitung natürlicher Sprache NLP) formatiert ist. -
9 ist ein Diagramm zur Darstellung eines exemplarischen Abschnittes eines formatierten Wissensgraphen. -
10 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens von <S, P, O>-Tripeln für eine Schlüsselwortsuche und einen Vorschlagsindex. -
11 ist ein Flussdiagramm zur Darstellung einer exemplarischen NLP-Pipeline. -
12 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines serialisierten Wissensgraphen mit Kommentaren. -
13 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Hauptvorschlagsvorausschauindex. -
14 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens von Gewichtungen für feldgewichtete Suchergebnisse. -
15 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Präsentierens einer Antwortkarte gegenüber einem Nutzer auf einer Ausgabevorrichtung. -
16A ist ein Diagramm zur Darstellung einer exemplarischen „Wie man“-Antwortkarte in einem JSON-Format. -
16B ist ein Diagramm zur Darstellung einer exemplarischen „Was ist“-Antwortkarte in einem JSON-Format. -
17 ist ein Diagramm zur Darstellung eines exemplarischen Verfahrens der Durchführung der verbesserten Technik. - Detailbeschreibung
- Der vorbeschriebene herkömmliche Suchassistent ist als Hilfeassistent für bestimmte Produkte und Dienstleistungen schlecht geeignet. Ein typischer Suchassistent benötigt beispielsweise gegebenenfalls Tausende oder Zehntausende von eigens vorgesehenen Servern, die bei einer großen Menge von Nutzern Suchstrings sammeln und zusammenstellen. Eine derart große Anzahl von Servern kann im Betrieb derart kostenaufwändig sein, dass die Kosten jenseits der Möglichkeiten der meisten Dienstanbieter liegen. In vielen Fällen kann die Anzahl von möglichen Suchstrings, die die in das Textkästchen eingetippten Worte enthalten, zudem groß sein, wobei nur wenige oder gar keine der Suchstrings relevant sind. Auch dann, wenn ein Suchstring relevant ist, ist wahrscheinlich, dass die Suchergebnisse auf Grundlage jenes Suchstrings nicht auf die Frage eingehen, die der Nutzer im Sinn hatte.
- Man betrachte als Beispiel ein Szenario, bei dem ein Nutzer rote Augen aus einem Digitalfoto entfernen möchte, der Nutzer den Begriff „rote Augen“ jedoch nicht kennt. Vielmehr tippt der Nutzer das Nachfolgende in einen Suchassistent ein: „Wie entferne ich Teufelsaugen?“. Ist diese unübliche Art, die Anfrage auszudrücken, vorher niemals so formuliert worden, so findet der Suchassistent gegebenenfalls einen den eingetippten Zeichen nahen Treffer wie beispielsweise „Wie entferne ich böse Augen?“. In diesem Fall stellt der Suchassistent gegebenenfalls Links zu astrologischen und religiösen Webseiten bereit, die „das böse Auge“ erwähnen, von denen dem Nutzer jedoch keine weiterhilft.
- Entsprechend den hier beschriebenen Implementierungen und im Gegensatz zu dem vorbeschriebenen herkömmlichen Suchassistent, der in gewissem Umfang eine Serverinfrastruktur benötigt, die für die meisten Unternehmen zu viel ist und die beim Beantworten von Fragen im Sinne der Nutzer häufig versagt, impliziert eine verbesserte Technik ein Ausgeben von genauen Suchstrings, wenn die von dem Nutzer eingetippte Frage keine Worte enthält, die in der Zusammenstellung von Suchstrings vorhanden sind. Insbesondere beinhaltet die verbesserte Technik ein Generieren von Links zu spezifischem Content in einer Sammlung von Dokumenten in Reaktion auf eine Nutzerstringanfrage, wobei die Links auf Grundlage eines Antwortvorschlagsvorausschauindex generiert werden. Der Antwortvorschlagsvorausschauindex verweist auf eine Abbildung zwischen einer Gruppe von semantisch äquivalenten Begriffen und einem jeweiligen Link zu spezifischem Content der Sammlung von Dokumenten. Bei einem exemplarischen Szenario empfängt ein Computer einen Satz von Hilfedokumenten, die ein Produkt oder eine Produktfamilie betreffen. Jedes Hilfedokument beinhaltet ein Thema und das Thema betreffenden Content. Der Computer generiert den Antwortvorschlagsvorausschauindex auf Grundlage des Satzes von Hilfedokumenten. In Reaktion auf das Empfangen einer Nutzeranfrage generiert der Computer einen Link zu spezifischem Content in dem Satz von Hilfedokumenten. Bei einigen Implementierungen kann der Computer auch eine Antwortkarte, die dem Link entspricht, ausgeben, wobei die Antwortkarte ein Fenster ist, das auf einer Ausgabevorrichtung angezeigt wird und in dem die Anfrage des Nutzers beantwortender Content gezeigt ist.
- Vorteilhafterweise muss ein Nutzer seine Anfrage in Bezug auf den Antwortvorschlagsvorausschauindex nicht genau formulieren. Während der vorbeschriebene herkömmliche Suchassistent, der das Nachschlagen auf Grundlage von von dem Nutzer eingetippten Worten durchführt, sehr wahrscheinlich Links zu Content ausgibt, der mit der Absicht des Nutzers nichts zu tun hat, verarbeitet die verbesserte Technik den eingegebenen Suchstring unter Nutzung von Verarbeitung natürlicher Sprache. Entsprechend ist sehr wahrscheinlich, dass ein Hilfesystem auf Grundlage der vorbeschriebenen Abbildung ein einziges Ergebnis, beispielsweise einen Link zu einem Dokument in der Sammlung oder zu einem Ort innerhalb eines Dokumentes, erzeugt, der die Frage des Nutzers genau beantwortet. Ein derartiges Hilfesystem lernt verbreitete synonyme Begriffe, ohne dass es Milliarden von Anfragen durchsehen müsste, und kann Antworten auf Grundlage der Frageabsicht anstatt auf Grundlage wörtlicher Schlüsselwörter, wie dies bei der Verarbeitung durch herkömmliche Suchassistenten der Fall ist, automatisch vorschlagen. Das Hilfesystem kann zudem genaue Antworten im kompakten Format einer Antwortkarte bereitstellen, wodurch die Notwendigkeit für Nutzer entfällt, Ergebnisdokumente zu durchstöbern, wodurch wiederum der Rückgriff auf eine umfangreiche und kostenintensive Suchinfrastruktur entfällt und der Nutzer ein verlässlicheres Suchergebnis erhält. Das Hilfesystem, das auch als „semantische Vorausschau“ (semantic lookahead) bekannt ist, kann zudem dynamisch einen Link generieren, während der Nutzer seine Anfrage eintippt, wodurch ermöglicht wird, dass der Nutzer ein relevantes Suchergebnis schneller als bei Systemen erhält, die Suchergebnisse erst dann ausgeben, wenn die vollständige Eingabe vorliegt.
- Um die vorbeschriebenen Merkmale zu verwirklichen, generiert das System zunächst ein semantisches Dokumentobjektmodell (DOM) für jede Contentpage, um thematische Beziehungen und Beschreibungen zu erfassen. Das System erstellt sodann einen Wissensgraphen aus dem zusammengestellten DOM und nutzt vorgefundene Eltern-Kind-Themenbeziehungen, „Wie man“-Prozeduren und verwandte Themen innerhalb der DOM-Struktur. Das System bedient sich einer hochgradig nützlichen Themenstruktur und Domäneninformation während des Dokumentverstehprozesses, bevor es einen Faktenwissensgraphen für die endgültige Frage/Antwort erstellt.
- Des Weiteren kann auf Dokumentationen für stark nachgefragte Produkte proprietärer Natur (beispielsweise Dokumentationen für sensiblen regierungstechnischen, pharmazeutischen und wissenschaftlichen Content oder die Rechtsanwendung) seitens großer öffentlicher Suchmaschinen nicht zugegriffen werden. Bei einer derartigen Dokumentation ist die Fähigkeit erwünscht, ein intelligentes Frageantwortsystem lokal und gänzlich innerhalb eines einzigen Unternehmens oder in einer Umgebung kooperierender Unternehmen einzusetzen. Die verbesserten Techniken, die eine Sammlung von Dokumenten als Eingabe aufnehmen, stellen diese Fähigkeit in besonderem Maße bereit.
- Ein weiteres vorteilhaftes Merkmal des vorbeschriebenen Systems ist ein Prozess des automatischen Lernens von Antwortindexierungsgewichtungen aus exemplarischen Frage/Antwort-Paaren unter Nutzung von Techniken maschinellen Lernens und einer optimierenden argmax()-Funktion. Diese Antwortindexierungsgewichtungen bilden dahingehend das Rückgrat des vorbeschriebenen semantischen Vorausschauhilfesystems, dass verschiedene Teile einer Nutzereingabe (beispielsweise Subjekt, Prädikat, Titel) hinsichtlich ihrer Wichtigkeit mit Blick auf das Lokalisieren semantischer Äquivalente zu jenen Teilen der Nutzereingabe in dem Wissensgraphen gewichtet werden. Dies ermöglicht, dass das System genaue Antwortvorschläge schnell generiert, indem es Produkthilfesuchanfrageprotokolle von einem kleineren, zweckbestimmten Publikum nutzt. Die Antwortindexierungsgewichtungen unterscheiden sich vollständig von Techniken, die bei herkömmlichen Suchassistenten genutzt werden. So verfügen herkömmliche Suchassistenten nicht über die Fähigkeit der semantischen Vorausschau, wie sie hier beschrieben wird. Vielmehr wird eine beliebige „Vorausschau“, die von den herkömmlichen Suchassistenten vorgenommen wird, im Kontext des Auffindens genauer Entsprechungen zwischen Worten in einem Eingabestring und Worten in einer Suchdatenbank benutzt.
- Zusammengefasst bedeutet dies, dass die hier beschriebenen verbesserten Techniken schnelle und genaue Suchergebnisse auf Grundlage einer ungenauen Nutzereingabe liefern. Diese Suchergebnisse werden aufgebaut, indem auf Grundlage einer Indexierung von Content in einer Sammlung von Dokumenten, das heißt semantischer Vorausschaudaten, ein Wissensgraph erstellt wird. Das Indexieren des Contents kann durch ein geeignetes Gewichten verschiedener Teile eines Suchstrings, wie vorstehend beschrieben worden ist, durchgeführt werden, und ist zur in Echtzeit erfolgenden Ausgabe von Suchergebnissen, während der Nutzer tippt, geeignet. Dies ist eine semantische Vorausschau für einen Nutzereingabestring. Der auf diese Weise erstellte Wissensgraph beinhaltet Paare aus semantisch äquivalenten Begriffen und Links zu Content in der Sammlung von Dokumenten. Auf diese Weise kann ein Nutzer einen Suchstring ungenau formulieren und dennoch relevante Suchergebnisse erhalten, während der Suchstring eingegeben wird.
- Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraphen darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht.
- Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Generieren der semantischen Kommentardaten, die jeweilige semantische Kommentare zu dem Thema und Satz von Unterthemen eines jeden der Sammlung von Dokumenten darstellen, wobei jeder der semantischen Kommentare ein jeweiliges Prädikat eines Satzes von Prädikaten und ein jeweiliges Objekt eines Satzes von Objekten beinhaltet; ein für jedes von dem Satz von Prädikaten erfolgendes Identifizieren wenigstens eines Objektes des Satzes von Objekten, das, wenn es mit jenem Prädikat kombiniert wird, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht; und ein für jedes von dem Satz von Objekten erfolgendes Identifizieren wenigstens eines Prädikates des Satzes von Prädikaten, die, wenn sie mit jenem Objekt kombiniert werden, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entsprechen.
- Bei einigen Implementierungen beinhaltet das Generieren der Themenwissensgraphdaten für jedes aus der Sammlung von Dokumenten ein Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jenem Dokument entspricht, wobei das DOM jenem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content jenes Dokumentes beinhalten; und ein Durchführen einer Zusammenstellungsoperation an dem Satz von DOMen zum Erzeugen einer Hauptlinkliste für den Themenwissensgraphen, wobei die Hauptlinkliste mehrere eindeutige Links zu Content der Sammlung von Dokumenten beinhaltet.
- Bei einigen Implementierungen beinhaltet das Generieren der Themenwissensgraphdaten ein für jedes der Sammlung von Dokumenten erfolgendes Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jenem Dokument entspricht, wobei das DOM jenem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content jenes Dokumentes beinhaltet; und ein Durchführen einer Wissensgraphformatierungsoperation an dem Satz von DOMen zum Erzeugen eines zusammengestellten abgeflachten Wissensgraphen, der für eine NLP-Pipeline (Verarbeitung natürlicher Sprache NLP) formatiert ist, wobei der zusammengestellte abgeflachte Wissensgraph jedes von dem Thema und Satz von Unterthemen eines jeden des Satzes von DOMen beinhaltet, wobei die NLP-Pipeline dafür konfiguriert ist, <S, P, O>-Tripel zu erzeugen, die aus Subjekt, Prädikat und Objekt für jedes von dem Thema und Satz von Unterthemen eines jeden des Satzes von DOMen besteht.
- Bei einigen Implementierungen beinhaltet das Generieren der Themenwissensgraphdaten ein Durchführen einer Unterteilungsoperation an dem zusammengestellten abgeflachten Wissensgraphen zum Erzeugen von mehreren dem zusammengestellten abgeflachten Wissensgraphen zu eigenen Teilen bzw. von mehreren zusammengestellten abgeflachten Wissensgraphteilen; und ein Durchführen einer NLP-Operation durch die NP-Pipeline an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen zum Erzeugen des Wissensgraphen, wobei die NLP-Operation an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen parallel durchgeführt wird.
- Bei einigen Implementierungen beinhaltet das Generieren des DOM des Satzes von DOMen ein Durchführen einer Auffindungsoperation an jedem der Sammlung von Dokumenten zum Identifizieren von nichtinformativem Content jenes Dokumentes; und ein Durchführen einer Entfernungsoperation an dem nichtinformativen Content jenes Dokumentes zum Erzeugen des Themas, des Satzes von Unterthemen und der Links zu dem Content jenes Dokumentes, wobei die Entfernungsoperation einen TF-IDF-Algorithmus (Term Frequency Inverse Document Frequency TF-IDF), der an jenem Dokument angewendet wird, beinhaltet.
- Bei einigen Implementierungen beinhaltet das Generieren des DOM des Satzes von DOMen ein Durchführen einer Neuformatierungsoperation an jedem der Sammlung von Dokumenten zum Erzeugen des Dokumentes, das in einer Markdown-Markup-Sprache (MDML) formatiert ist.
- Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Beziehen von Suchanfrageprotokolldaten, wobei die Suchanfrageprotokolldaten eine Abbildung zwischen Nutzeranfragedaten und Links zu Content der Sammlung von Dokumenten darstellen, wobei die Nutzeranfragedaten mehrere Nutzeranfragen darstellen; und ein Durchführen einer Textauswertungsoperation an den Suchanfrageprotokolldaten zum Erzeugen eines Satzes von gängigen Nutzeranfragen für eines von einem Thema oder einem jeweiligen Unterthema eines Satzes von Unterthemen eines Dokumentes der Sammlung von Dokumenten, wobei jedes von dem Thema und dem Satz von Unterthemen mit einem jeweiligen Link entsprechendem jeweiligem Content verknüpft ist.
- Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Bilden von Paaren aus (i) einer jeweiligen Nutzeranfrage des Satzes von gängigen Nutzeranfragen und (ii) einem jeweiligen Link zu Content der Sammlung von Dokumenten, wobei jedes Paar auf kommentierten Themen und Sätzen von Unterthemen des Themenwissensgraphen beruht, wobei die kommentierten Themen und Sätze von Unterthemen Thementitel und <S, P, O>-Tripel beinhalten, die aus Subjekt, Prädikat und Objekt für jedes von den Themen und Sätzen von Unterthemen bestehen. Bei derartigen Implementierungen beinhaltet das Erzeugen des Links zu spezifischem Content in der Sammlung von Dokumenten ein Identifizieren eines Paares aus einer Nutzeranfrage und einem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt.
- Bei einigen Implementierungen beinhaltet das Bilden der Paare aus Nutzeranfrage und Link zu dem Content ein Generieren einer jeweiligen Gewichtung, die jedem von einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht. Bei derartigen Implementierungen beinhaltet das Identifizieren des Paares aus der Nutzeranfrage und dem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt, ein Generieren einer Linearkombination aus dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content unter Nutzung der jeweiligen Gewichtung entsprechend jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content des Satzes von gängigen Nutzeranfragen, die am besten zu derselben Linearkombination aus einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Nutzeranfragestring passt.
- Bei einigen Implementierungen beinhaltet das Generieren der jeweiligen Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht, ein Generieren einer Matrix, die mehrere Reihen aufweist, wobei jede der mehreren Reihen Elemente aufweist, die gleich einer jeweiligen Gewichtung des Thementitels, des Subjektes, des Prädikates und des textartigen Contents sind; ein für jedes der Paare aus Nutzeranfrage und Link zu dem Content des Satzes von gängigen Nutzeranfragen erfolgendes Bilden einer Merit-Funktion, die als Argumente (i) eine Suchfunktion der Nutzeranfragedaten, die Links zu Content der Sammlung von Dokumenten und eine Reihe der Matrix und (ii) einen bestimmten Link zu Content der Sammlung von Dokumenten nimmt, wobei die Suchfunktion einen Link als Ausgabe ausgibt, wobei die Merit-Funktion in Reaktion darauf, dass die Linkausgabe der Suchfunktion gleich dem bestimmten Link ist, einen Wert von 1 aufweist, und in Reaktion darauf, dass die Linkausgabe der Suchfunktion nicht gleich dem bestimmten Link ist, einen Wert von 0 aufweist; und ein Identifizieren der Reihe der Matrix, die bewirkt, dass die Merit-Funktion einen Maximalwert annimmt, als diejenige Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entspricht.
- Bei einigen Implementierungen beinhaltet das Beziehen der Suchanfrageprotokolldaten ein Durchführen einer Operation maschinellen Lernens an rohen Suchanfragedaten zum Erzeugen der Abbildung zwischen den Nutzeranfragedaten und den Links zu Content der Sammlung von Dokumenten.
- Bei einigen Implementierungen beinhaltet der Wissensgraph des Weiteren für ein Thema Links zu Content, der anderen Themen entspricht.
- Bei einigen Implementierungen beinhaltet der Satz von Links einen einzigen Link. Bei derartigen Implementierungen beinhaltet das Ausgeben des Satzes von Links an die Ausgabevorrichtung ein Anzeigen einer Antwortkarte, die dem einzigen Link entspricht, wobei die Antwortkarte ein Fenster beinhaltet, in dem der Content, der dem Link entspricht, enthalten ist.
- Bei einigen Implementierungen beinhaltet das Erzeugen des Links zu bestimmtem Content in der Sammlung von Dokumenten ein Lokalisieren von Content, der Text beinhaltet, der einen Schritt eines Prozesses angibt; und ein Identifizieren des Themas, dem der Content entspricht.
-
1 ist ein Diagramm zur Darstellung einer exemplarischen elektronischen Umgebung100 , in der die vorbeschriebenen verbesserten Techniken implementiert sein können. Wie in1 gezeigt ist, beinhaltet die elektronische Umgebung100 einen Computer120 und eine Anzeige190 , die von einem Nutzer192 betrachtet wird. - Der Computer
120 ist dafür konfiguriert, nutzerspezifizierte Zeichnungen auf einer Anzeigevorrichtung anzuzeigen. Der Computer120 beinhaltet eine Netzwerkschnittstelle122 , eine oder mehrere Verarbeitungseinheiten124 , einen Speicher126 und eine Anzeigeschnittstelle128 . Die Netzwerkschnittstelle122 beinhaltet beispielsweise Ethernet-Adapter, Token-Ring-Adapter und dergleichen, um elektronische und/oder optische Signale, die aus einem Netzwerk empfangen werden, in elektronische Form zur Verwendung durch den bearbeitenden Computer120 umzuwandeln. Der Satz von Verbeitungseinheiten124 beinhaltet einen oder mehrere Verarbeitungschips und/oder Baugruppen. Der Speicher126 beinhaltet sowohl einen flüchtigen Speicher (beispielsweise einen RAM) wie auch einen nichtflüchtigen Speicher, beispielsweise einen oder mehrere ROMs, Plattenlaufwerke, Solid-State-Laufwerke und dergleichen. Der Satz der Verarbeitungseinheiten124 und der Speicher126 bilden zusammen Steuer- bzw. Regelschaltkreise, die dafür konfiguriert und angeordnet sind, verschiedene Verfahren und Funktionen, die hier beschrieben werden, auszuführen. - Bei einigen Ausführungsformen können eine oder mehrere der Komponenten des Computers
120 Prozessoren (beispielsweise Verarbeitungseinheiten124 ) sein oder diese beinhalten, die dafür konfiguriert sind, Anweisungen zu verarbeiten, die in dem Speicher126 gespeichert sind. Beispiele für derartige in1 dargestellte Anweisungen beinhalten einen Dokumentsammlungserwerbsverwalter130 , einen Wissensgraphgenerierungsverwalter140 , einen Suchanfrageprotokollerwerbsverwalter150 , einen Antwortvorschlagsvorausschauindexverwalter160 , einen Nutzeranfrageerwerbsverwalter170 , einen Antwortkartenpräsentationsverwalter180 und einen Anzeigeverwalter182 . Des Weiteren ist, wie in1 dargestellt ist, der Speicher126 dafür konfiguriert, verschiedene Daten zu speichern, was im Zusammenhang mit den jeweiligen Verwaltern, die diese Daten nutzen, noch beschrieben wird. - Der Dokumentsammlungserwerbsverwalter
130 ist dafür konfiguriert, Dokumentdaten132 zu beziehen, die eine Sammlung von Dokumenten darstellen, die Content beinhalten, der einem Nutzer, der Zugriff auf die Sammlung von Dokumenten hat, präsentiert werden kann. Bei einigen Implementierungen bezieht der Dokumentsammlungserwerbsverwalter130 die Dokumentdaten132 über eine Netzwerkverbindung unter Nutzung der Netzwerkschnittstelle122 . Bei einigen Implementierungen bezieht der Dokumentsammlungserwerbsverwalter130 die Dokumentdaten132 über Speichermedien (beispielsweise ein Plattenlaufwerk, ein Flash-Laufwerk und dergleichen mehr). - Die Dokumentdaten
132 stellen die Sammlung von Dokumenten dar, die in Reaktion auf eine Suchanfrage durchsucht werden sollen. Bei einigen Implementierungen beinhaltet die Sammlung von Dokumenten eine Hilfedokumentation für ein Produkt oder eine Familie von Produkten. Bei einigen Implementierungen beinhaltet die Sammlung von Dokumenten Dokumente, die ein privates Intranet für ein Unternehmen bilden. Die Dokumentdaten132 beinhalten Themendaten134 , Contentdaten138 und Linkdaten139 . Bei einigen Implementierungen beinhalten die Dokumentdaten132 Unterthemendaten136 . - Die Themendaten
134 stellen Thementitel dar. Jedes Dokument der Sammlung von Dokumenten beinhaltet einen Thementitel, der einen Gegenstand, der in jenem Dokument offenbart ist, und den Thementitel betreffenden Content angibt. - Die Unterthemendaten
136 stellen einen Satz von Unterthementiteln eines jeden des Satzes von Dokumenten dar. Jedes des Satzes von Unterthemen eines Dokumentes betrifft das Thema des Dokumentes. Darüber hinaus betrifft ein Teil des Contents des Dokumentes ein jeweiliges Unterthema des Satzes von Unterthemen des Dokumentes. - Die Contentdaten
138 stellen verschiedenen Content dar, der in jedem der Sammlung von Dokumenten beinhaltet ist und das Thema, das von den Themendaten134 dargestellt wird, und den Satz von Unterthemen, die von den Unterthemendaten136 dargestellt werden, betrifft. Bei einigen Implementierungen beinhaltet der Content textartige Beschreibungen. Bei einigen Implementierungen beinhaltet der Content andere Medien, so beispielsweise grafische Medien, Videomedien, Audiomedien und dergleichen. - Die Linkdaten
139 stellen Links zu dem Content dar, auf den von einem Browser oder einer Suchmaschine entsprechend den hier beschriebenen verbesserten Techniken zugegriffen werden kann. Bei einigen Implementierungen beinhalten die Links eine URL-Adresse (Uniform Resource Locator URL), an der ein Dokument gespeichert ist (beispielsweise ein Webserver, der nicht unbedingt der Computer120 ist). Bei einigen Implementierungen beinhalten die Links zudem einen Anker, der einen Ort innerhalb des Dokumentes angibt, an dem von Interesse seiender Content, der ein Unterthema betrifft, lokalisiert ist. - Der Wissensgraphgenerierungsverwalter
140 ist dafür konfiguriert, Wissensgraphdaten142 auf Grundlage der Dokumentdaten132 zu generieren. Der Betrieb des Wissensgraphgenerierungsverwalters140 wird detailliert anhand4 bis12 beschrieben. - Die Wissensgraphdaten
142 stellen einen Wissensgraphen dar. Der Wissensgraph ist eine hierarchische Anordnung von Thema, Unterthemen und Links, die ebenfalls Information über semantischen Content des textartigen Contents der Sammlung von Dokumenten und deren Beziehung zu den Links, durch die auf den Content zugegriffen werden kann, beinhaltet. Die Wissensgraphdaten142 beinhalten semantische Kommentardaten144 und zusammengestellte Linkdaten146 . - Die semantischen Kommentardaten
144 stellen grammatikalische Teile des Themas und der Unterthementitel und des textartigen Contents dar, die durch Verarbeitung natürlicher Sprache (NLP) extrahiert werden. NLP kann beispielsweise ein Subjekt, ein Prädikat und ein Objekt (ein <S, P, O>-Tripel) aus einem Thementitel extrahieren. Bei einem spezifischen Beispiel werde der Thementitel „Nutze den Text über das Formungswerkzeug“ betrachtet. Das Prädikat kann „Nutze“ sein, während das Objekt „Text“ oder „Text über das Formungswerkzeug“ sein kann. Als Subjekt kann, da es aufgrund der Formulierung im Imperativ nicht explizit auftritt, „Du/Sie“ oder „Nutzer“ hergeleitet werden. Der Wissensgraphgenerierungsverwalter140 ist dafür konfiguriert, die Ausgabe einer NLP als semantische Kommentardatei zur Verweisung durch die Suchmaschine anzuordnen. - Die zusammengestellten Linkdaten
146 stellen alle Links zu Themen und Unterthemen in der Sammlung von Dokumenten (das heißt die Dokumentdaten132 ) dar. Der Wissensgraphgenerierungsverwalter140 ist dafür konfiguriert, diese Links zu extrahieren und zusammenzustellen, Doppelungen zu beseitigen und ein Indexierungsschema zu generieren, durch das auf die Links in dem Wissensgraph verwiesen wird. - Der Suchanfrageprotokollerwerbsverwalter
150 ist dafür konfiguriert, Suchanfrageprotokolldaten152 zu beziehen. Bei einigen Implementierungen bezieht der Suchanfrageprotokollerwerbsverwalter150 die Suchanfrageprotokolldaten152 über eine Netzwerkverbindung unter Nutzung der Netzwerkschnittstelle122 . Bei einigen Implementierungen bezieht der Suchanfrageprotokollerwerbsverwalter150 die Suchanfrageprotokolldaten152 über Speichermedien (beispielsweise ein Plattenlaufwerk, ein Flash-Laufwerk und dergleichen mehr). - Die Suchanfrageprotokolldaten
152 stellen ein Suchanfrageprotokoll dar, das von Nutzern generiert wird, die die Sammlung von Dokumenten durchsuchen. Einige Nutzer geben beispielsweise eine Anfrage ein, und es wird in Reaktion hierauf ein Link, der von einer Suchmaschine angeboten wird, angeklickt. Einige Nutzer finden in Reaktion hierauf gegebenenfalls keinen hilfreichen Link und unternehmen etwas anderes, versuchen also beispielsweise eine andere Anfrage oder klicken überhaupt keinen Link an. Die Suchanfrageprotokolldaten152 beinhalten Anfragedaten154 und Linkdaten156 . - Die Anfragedaten
154 stellen Anfragen dar, die von zahlreichen Nutzern bei Versuchen eingegeben worden sind, Content in der Sammlung von Dokumenten finden. Bei einigen Implementierungen nehmen die Anfragedaten154 die Form eines Strings von Zeichen an, der in diskreten Worten ausgedrückt ist, wie es bei einer Suchanfrage üblich ist. Der Suchanfrageprotokollerwerbsverwalter150 sammelt Anfragen, die von Nutzern in die Suchmaschine eingegeben worden sind, und speichert sie in einem zentralen Protokoll. Bei einigen Implementierungen formatiert der Suchanfrageprotokollerwerbsverwalter150 die gesammelten Anfragen für eine Verarbeitung natürlicher Sprache, um semantische Information, so beispielsweise <S, P, O>-Tripel, aus den Anfragen zu extrahieren. Das Speichern der Anfragen in einer derartigen semantischen Form stellt eine Verbindung zwischen den Anfragen und dem Wissensgraphen her. - Die Linkdaten
156 stellen Links dar, die in Reaktion auf eine Anfrage ausgewählt werden. Die Links beinhalten eine URL, die einen Ort (beispielsweise auf einem Remote-Webserver) angibt, an dem die Dokumente gespeichert sind. Jeder Link entspricht einem Thema, das den Content eines Dokumentes definiert. Bei einigen Implementierungen beinhalten die Links Anker, die Orten von Unterthemen in den Dokumenten entsprechen. Ein Anker kann beispielsweise durch ein „#“-Symbol markiert sein, auf das Zeichen in dem Unterthema nach einer URL in einem Link folgen. - Der Antwortvorschlagsvorausschauindexverwalter
160 ist dafür konfiguriert, Antwortvorschlagsvorausschauindexdaten162 auf Grundlage der Wissensgraphdaten142 und der Suchanfrageprotokolldaten152 zu erzeugen. Die Antwortvorschlagsvorausschauindexdaten162 stellen einen Antwortvorschlagsvorausschauindex dar, der für einen Nutzer einen Link oder einen Satz von Links zu Content der Sammlung von Dokumenten in Reaktion auf eine von dem Nutzer eingegebene Anfrage bereitstellt. Da die Wissensgraphdaten142 und die Suchanfrageprotokolldaten152 semantische Kommentare (beispielsweise <S, P, O>-Tripel) aufweisen, müssen die Nutzeranfragen keine Schlüsselwörter in den Thementiteln oder dem verknüpften Content beinhalten. Vielmehr stellen die Antwortvorschlagsvorausschauindexdaten162 Themen und Unterthemen bereit, die mit der Anfrageeingabe semantisch verwandt sind. Die Antwortvorschlagsvorausschauindexdaten162 beinhalten semantisch äquivalente Begriffsdaten164 . - Die semantisch äquivalenten Begriffsdaten
164 stellen Wendungen dar, von denen man herausgefunden hat, dass sie dahingehend semantisch äquivalent sind, dass sie bekanntermaßen mit denselben Links verknüpft sind. Die Wendungen „Entferne ein rotes Auge“, „Filtere Reflexionen aus Augen in Bildern“ und „Beseitige rote Augen“ können alle mit dem Link zu dem Thema „Wie man rote Augen aus Fotos entfernt“ verknüpft werden. Jede der Wendungen wie auch das Thema weisen semantische Kommentare auf, die in Bezug auf die semantischen Kommentare des Thementitels analysiert worden sind. Durch Analysieren des semantischen Contents neuer Eingabeanfragen wie beispielsweise „Wie entferne ich die Teufelsaugen?“ ist der Antwortvorschlagsvorausschauindexverwalter160 dazu in der Lage, dem Nutzer den Link auch dann anzuzeigen, wenn die Anfrage Worte enthält, die nicht in demselben Suchanfrageprotokoll beinhaltet sind. - Der Nutzeranfrageerwerbsverwalter
170 ist dafür konfiguriert, Nutzeranfragedaten172 zu beziehen, die Nutzeranfragen von einer Suchmaschine darstellen. Bei einigen Implementierungen ist der Nutzeranfrageerwerbsverwalter170 dafür konfiguriert, semantischen Content (beispielsweise <S, P, O>-Tripel) aus Nutzeranfragen zu extrahieren. - Der Antwortkartenpräsentationsverwalter
180 ist dafür konfiguriert, Content in einer Antwortkarte in Reaktion darauf anzuzeigen, dass nur ein einziger Link vorhanden ist, der in Reaktion auf eine Anfrage präsentiert wird, oder der Nutzer einen Link aus mehreren präsentierten Links auswählt. Die Antwortkarte ist ein Fenster, das speziell zum Präsentieren von derartigem Content konfiguriert ist. Bei einigen Implementierungen können die Antwortkarten verschiedene Formen aufweisen, die davon abhängen, ob das verknüpfte Thema ein „Wie man“-Thema oder ein „Was ist“-Thema ist. - Der Anzeigeverwalter
182 ist dafür konfiguriert, Content - bei einigen Implementierungen innerhalb einer Antwortkarte - an die Anzeigevorrichtung190 zu senden. - Die Komponenten (beispielsweise Module, Verarbeitungseinheiten
124 ) des Computers120 können dafür konfiguriert sein, auf Grundlage einer oder mehrerer Plattformen (beispielsweise einer oder mehrerer ähnlicher oder verschiedener Plattformen) betrieben zu werden, die einen oder mehrere Typen von Hardware, Software, Firmware, Betriebssystemen, Laufzeitbibliotheken und/oder dergleichen mehr beinhalten können. Bei einigen Implementierungen können die Komponenten des Computers120 dafür konfiguriert sein, innerhalb eines Clusters von Vorrichtungen (beispielsweise innerhalb einer Serverfarm) betrieben zu werden. Bei einer derartigen Implementierung können die Funktionalität und die Verarbeitung der Komponenten des Computers120 auf verschiedene Vorrichtungen des Clusters von Vorrichtungen verteilt sein. - Die Komponenten des Computers
120 können ein beliebiger Typ von Hardware und/oder Software, die zum Verarbeiten von Attributen konfiguriert sind, sein oder diese beinhalten. Bei einigen Implementierungen können ein oder mehrere Teil der Komponenten, die bei den Komponenten des Computers120 in1 gezeigt sind, ein hardwarebasiertes Modul (beispielsweise ein digitaler Signalprozessor (DSP), ein feldprogrammierbares Gate-Array (FPGA), ein Speicher), ein Firmwaremodul und/oder ein softwarebasiertes Modul (beispielsweise ein Modul aus Computercode, ein Satz von computerlesbaren Anweisungen, die auf einem Computer ausgeführt werden können) sein oder diese beinhalten. Bei einigen Implementierungen können ein oder mehrere Teile der Komponenten des Computers120 beispielsweise ein Softwaremodul, das zur Ausführung durch wenigstens einen Prozessor (nicht gezeigt) konfiguriert ist, sein oder dieses beinhalten. Bei einigen Implementierungen kann die Funktionalität der Komponenten in verschiedenen Modulen und/oder anderen Komponenten als den in1 gezeigten beinhaltet sein. - Bei einigen Ausführungsformen können eine oder mehrere der Komponenten des Computers
120 Prozessoren, die zum Verarbeiten von in einem Speicher gespeicherten Anweisungen konfiguriert sind, sein oder diese beinhalten. Ein Dokumentsammlungserwerbsverwalter130 (und/oder ein Teil hiervon), ein Wissensgraphgenerierungsverwalter140 (und/oder ein Teil hiervon), ein Suchanfrageprotokollerwerbsverwalter150 (und/oder ein Teil hiervon), ein Antwortvorschlagsvorausschauindexverwalter160 (und/oder ein Teil hiervon), ein Nutzeranfrageerwerbsverwalter170 (und/oder ein Teil hiervon), ein Antwortkartenpräsentationsverwalter180 (und/oder ein Teil hiervon) und ein Anzeigeverwalter182 (und/oder ein Teil hiervon) können beispielsweise eine Kombination aus einem Prozessor und einem Speicher sein, die dafür konfiguriert sind, Anweisungen im Zusammenhang mit einem Prozess zum Implementieren einer oder mehrerer Funktionen auszuführen. - Bei einigen Implementierungen kann der Speicher
126 ein beliebiger Typ von Speicher sein, so beispielsweise ein Speicher mit wahlfreiem Zugriff, ein Plattenlaufwerkspeicher, ein Flash-Speicher und/oder dergleichen mehr. Bei einigen Implementierungen kann der Speicher126 als mehr als eine Speicherkomponente (beispielsweise als mehr als eine RAM-Komponente oder ein Plattenlaufwerkspeicher), die mit den Komponenten des bearbeitenden Computers120 verknüpft sind, implementiert sein. Bei einigen Implementierungen kann der Speicher126 ein Datenbankspeicher sein. Bei einigen Implementierungen kann der Speicher126 ein nichtlokaler Speicher sein oder diesen beinhalten. Der Speicher126 kann beispielsweise ein Speicher, der von mehreren Vorrichtungen (nicht gezeigt) geteilt bzw. gemeinsam genutzt wird, sein oder diese beinhalten. Bei einigen Implementierungen kann der Speicher126 mit einer Servervorrichtung (nicht gezeigt) innerhalb eines Netzwerkes verknüpft und dafür konfiguriert sein, Komponenten des bearbeitenden Computers120 zu dienen. Wie in1 dargestellt ist, ist der Speicher126 dafür konfiguriert, verschiedene Daten zu speichern, darunter die Dokumentdaten132 , die Wissensgraphdaten142 , die Suchanfrageprotokolldaten152 , die semantisch äquivalenten Begriffsdaten162 und die Nutzeranfragedaten172 . -
2 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses200 des Erstellens eines semantischen Vorausschauindex für Anfragen nach Content in einer Sammlung von Dokumenten. Der Prozess200 wird für eine Sammlung von Hilfedokumenten in einem Hilfesystem beschrieben. Der Prozess200 kann jedoch bei einer beliebigen Sammlung von Dokumenten, so beispielsweise in einem Unternehmensintranet, angewendet werden. Der Prozess200 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
202 bezieht der Dokumentsammlungserwerbsverwalter130 eine Sammlung von Hilfedokumenten. - Bei
204 nimmt der Wissensgraphgenerierungsverwalter124 ein Crawling, ein Filtern und ein Kommentieren der Hilfedokumente vor, um eine Sammlung von Dokumenten zu erzeugen, die in einer Markdown-Markup-Sprache (MDML) formatiert sind und aus denen irrelevanter Text ausgefiltert ist. Weitere Details zur Filterung und Kommentierung der Hilfedokumente werden nachstehend detailliert anhand4 beschrieben. - Bei
206 generiert der Wissensgraphgenerierungsverwalter140 ein Dokumentobjektmodell (DOM) für jedes Hilfedokument der Sammlung von Dokumenten. Wie anhand5 und6 beschrieben worden ist, ist das DOM für ein Dokument eine Sammlung von Themen, Unterthemen und Links zu dem Content, der mit den Themen und Unterthemen verknüpft ist. - Bei
208 generiert der Wissensgraphgenerierungsverwalter140 einen Wissensgraph für jedes Hilfedokument, das heißt entsprechend einem Thema aus einem DOM für das Dokument, das mit dem Thema verknüpft ist. Wie im Zusammenhang mit7 beschrieben wird, verweist der Wissensgraph auf einen zusammengestellten Index von Links zu Content in dem Dokument, das mit dem Thema verknüpft ist, wie auch auf Content selbst und Links zu anderen Themen, die dieselbe Verknüpfung mit dem Thema aufweisen können. - Bei
210 bildet der Wissensgraphgenerierungsverwalter140 einen serialisierten Wissensgraphen für die Sammlung von Hilfedokumenten. Der serialisierte Wissensgraph ist für eine Eingabe in eine NLP-Pipeline formatiert. - Bei
212 unterteilt der Wissensgraphgenerierungsverwalter140 den serialisierten Wissensgraphen in mehrere Dateien zur Eingabe in die NLP-Pipeline. Die NLP-Pipeline kann sodann eine Verarbeitung natürlicher Sprache an jeder der Unterteilungen parallel durchführen. - Bei
214 führt die NLP-Pipeline eine Abbildungs-/Verringerungs-Operation (MAP/REDUCE) an jeder Unterteilung durch, um <S, P, O>-Tripel für jeden Satz in der Unterteilung zu erzeugen. - Bei
216 führt der Wissensgraphgenerierungsverwalter140 die <S, P, O>-Tripel in dem serialisierten Wissensgraphen zusammen. Durch das Zusammenführen wird eine semantische Kommentardatei mit dem serialisierten Wissensgraphen derart verlinkt, dass jeder Satz mit seinem Tripel verknüpft ist. - Bei
218 generiert der Antwortvorschlagsvorausschauverwalter160 semantische Vorausschauvorschläge auf Grundlage des serialisierten Wissensgraphen mit den semantischen Kommentaren. - Bei
220 setzt der Antwortvorschlagsvorausschauverwalter160 Wissensgraphthemenantworten für semantische Vorausschauvorschläge ein. - Bei
222 generiert der Antwortvorschlagsvorausschauverwalter160 Gewichtungen für eine elastische Suchtextfeldindexierung. Die Gewichtungen werden derart berechnet, dass die Wahrscheinlichkeit maximiert wird, dass eine Nutzeranfrage zu einem Link und/oder einer Antwortkarte führt, der/die auf die Absicht der Anfrage genau eingeht. -
3 ist ein Diagramm zur Darstellung eines exemplarischen Hilfedokumentes202 , das als Teil eines Antwortvorschlagsvorausschauindex verarbeitet werden soll. Das Hilfedokument202 , das in3 dargestellt ist, weist einen Thementitel310 („ADD TEXT“ bzw. „Text hinzufügen“) auf, der den Content in dem Dokument definiert. Der Thementitel310 weist in diesem Fall ein einfaches Prädikat („add“ bzw. „hinzufügen“) und ein einfaches Objekt („text“ bzw. „Text“) auf und beschreibt ein Merkmal oder eine Familie von Merkmalen in einem Softwarewerkzeug. Das Dokument202 beschreibt ein „Wie man“-Hilfeszenario. - Unter dem Thementitel
310 ist textartiger Content312 vorhanden, der dem Thementitel310 entspricht. Der textartige Content312 beinhaltet Sätze, die das Merkmal oder den Satz von Merkmalen beinhalten. Diese Sätze wie auch der Thementitel310 werden für eine NLP-Pipeline derart neuformatiert und von dieser derart verarbeitet, dass die semantische Struktur des Themas310 und des Contents312 auf eine gemeinsame Plattform, beispielsweise auf <S, P, O>-Tripel, normiert werden kann. - Unter dem Content
312 ist ein Unterthementitel320 befindlich, der „About Text“ bzw. „Über den Text“ lautet. Der Unterthementitel320 steht mit dem Thementitel310 im Zusammenhang und kann unter Nutzung eines Ankers, beispielsweise eines „#“, verlinkt sein, auf den Zeichen folgen, die den Ort in dem Dokument202 , an dem der Unterthementitel platziert ist, identifizieren. Zudem ist ein textartiger Content322 vorhanden, der dem Unterthementitel320 entspricht. Der textartige Content322 beinhaltet wie der textartige Content312 Sätze, die für eine NLP-Pipeline derart neuformatiert und von dieser derart verarbeitet werden, dass die semantische Struktur des Themas310 und des Contents312 auf eine gemeinsame Plattform, so beispielsweise auf <S, P, O>-Tripel, normiert werden kann. - Das Dokument
202 verfügt zudem über einen weiteren Unterthementitel („Add Text“ bzw. „Text hinzufügen“) und einen textartigen Content332 , der jenem Unterthementitel entspricht. In diesem Fall beinhaltet der textartige Content332 aufgelistete Schritte in einem „Wie man“-Prozess. Eine NLP-Pipeline-Verarbeitungsoperation kann die Sätze als Schritte identifizieren und eine Antwortkarte formatieren, die diesen Text entsprechend beinhaltet. -
4 ist ein Flussdiagramm zur Darstellung von Details des Prozesses204 des Erstellens einer semantischen Kommentardatei aus einer Sammlung von Hilfedokumenten. Die semantische Kommentardatei412 wird dafür benutzt, ein Thema, ein Unterthema und Linkinformation für einen semantischen Vorausschauindex zu extrahieren, die beim Identifizieren und Präsentieren von Antwortkarten in Reaktion auf eine Nutzeranfrage benutzt werden. Der Prozess204 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
404 führt der Wissensgraphgenerierungsverwalter140 eine Crawling-Operation an jedem der Sammlung von Dokumenten202 durch, um ein Textkorpus zu identifizieren, das gegebenenfalls in einem Wissensgraphen organisiert werden soll. - Bei
406 führt der Wissensgraphgenerierungsverwalter140 eine Neuformatierungsoperation an jedem der Sammlung von Dokumenten in einer Markdown-Markup-Sprache (MDML) durch, um eine Sammlung von formatierten Dokumenten zu erzeugen. MDML ist eine Lightweight-Markup-Sprache, die von Menschen lesbar ist und in eine Standard-Markup-Sprache, so beispielsweise XHTML oder Rich Text Format (RTF), umgewandelt werden kann. - Bei
408 führt der Wissensgraphgenerierungsverwalter140 eine Auffindungsoperation an dem extrahierten Textkorpus eines jeden der Sammlung von formatierten Dokumenten durch, um nichtinformativen Content in jenem Dokument zu identifizieren. Um dies zu bewerkstelligen, erwirbt (beispielsweise lernt) der Wissensgraphgenerierungsverwalter140 ein Modell zum Ausfiltern von derartigem Content. Beispiele für derartige Sprache beinhalten die Sprache von Haftungsausschlüssen und Kontaktinformationen. - Bei
410 führt der Wissensgraphgenerierungsverwalter140 eine Operation des Ausfilterns oder Entfernens an dem identifizierten nichtinformativen Content eines jeden der Sammlung von formatierten Dokumenten durch. Bei einigen Implementierungen ist ein Modell zum Ausfiltern von derartigem Content aus dem Textkorpus ein TF-IDF-Algorithmus (Term Frequency Inverse Document Frequency). Bei einigen Implementierungen berechnet der Wissensgraphgenerierungsverwalter140 eine inverse Dokumenthäufigkeit (IDF) des Textkorpus: - Hierbei ist t ein Kandidatenrauschterm (beispielsweise ein N-Gramm wie beispielsweise „Kontakt mit der Kundenhilfe der Firma aufnehmen“), und N = |D| ist die Gesamtzahl von Dokumenten der Sammlung von Dokumenten. Der Nennerterm |{d ∈ D: t ∈ d}| ist eine Anzahl von Dokumenten, wo der Kandidatenrauschterm, das heißt eine Begriffshäufigkeit ungleich 0, auftritt.
- Der Filterungsprozess beinhaltet sodann das Folgende: (i) Sammeln und Sortieren von M Kandidatenrauschtermen unter Nutzung des vorstehend angegebenen Ausdrucks für idf(t, D); (ii) Generalisieren von Termen durch reguläre Ausdrücke für verschiedene Teile, so beispielsweise ((TERM1|TERM2|...|TERMi|...|TERMN)+[]*)\[[0-9]+\]; (iii) Sammeln von Begriffsmustern in der Rauschbegriffsstoppliste; und (iv) Anwenden der aufgetretenen Begriffe aus zerlegten Dokumenten der Sammlung von Dokumenten und, so vorhanden, Entfernen des Begriffsmusters aus dem Kommentar.
- Bei
412 führt der Wissensgraphgenerierungsverwalter140 eine Zerlegungsoperation an jedem eines jeden der Sammlung von formatierten Dokumenten durch, um Thementitel, Unterthemen, textartige Beschreibungen und Links zu identifizieren. Die Zerlegungsoperation erzeugt eine semantische Kommentardatei414 , die die identifizierten Thementitel, Unterthemen, textartigen Beschreibungen und Links zur Verweisung durch einen semantischen Vorschlagsvorausschauindex organisiert. Bei einigen Implementierungen nutzt der Wissensgraphgenerierungsverwalter140 eine Beautiful-Soup-Package, um einen Zerlegungsbaum (parsing tree) zum Identifizieren der Thementitel, Unterthemen, textartigen Beschreibungen und Links zu erzeugen. -
5 ist ein Flussdiagramm zur Darstellung von Details des Prozesses206 des Erstellens eines Satzes von Dokumentobjektmodellen (DOMen) aus der semantischen Kommentardatei414 . Jedes DOM beinhaltet das der obersten Ebene zu eigene Thema (top-level topic) und ein verknüpftes Unterthema. Der Prozess206 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
502 identifiziert der Wissensgraphgenerierungsverwalter140 die Themen und Unterthemen der semantischen Kommentardatei414 , die mit jedem der Sammlung von Dokumenten202 verknüpft sind. - Bei
504 ordnet der Wissensgraphgenerierungsverwalter140 das identifizierte Thema und die identifizierten Unterthemen aus jedem der Sammlung von Dokumenten202 in einem DOM506 an. Das DOM entspricht einem Dokument der Sammlung von Dokumenten202 mit einer hierarchischen Organisation von Thema und Unterthemen. Bei einigen Implementierungen wird das DOM506 in einem rekursiven JSON-Format dargestellt. -
6 ist ein Flussdiagramm zur Darstellung von Details des Prozesses208 des Erstellens einer Sammlung von Dokumentwissensgraphen (Knowledge Graphs KGs bzw. KGen) aus jedem DOM entsprechend einem jeweiligen Dokument der Sammlung von Dokumenten. Jeder Dokument-KG beinhaltet Linkkennungen, die Links zu Content in jedem der Sammlung von Dokumenten identifizieren. Der Prozess208 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
602 stellt der Wissensgraphgenerierungsverwalter140 die Links, die in der semantischen Kommentardatei414 identifiziert sind, zusammen und indexiert sie. Beim Zusammenstellen der Links identifiziert der Wissensgraphgenerierungsverwalter144 redundante (das heißt nicht eindeutige) Links und entfernt sie aus einer Hauptverweisliste von Links. Aus dieser Hauptliste generiert der Wissensgraphgenerierungsverwalter140 einen gemeinsamen Index der Links aus der Hauptverweisliste. - Bei
604 generiert der Wissensgraphgenerierungsverwalter140 Verlinkungen zwischen Themen. Auf diese Weise kann der KG, der einem Thema entspricht, das wiederum einem Dokument entspricht, eine Liste von Links zu anderen Themen bereitstellen. Auf diese Weise erzeugt der Wissensgraphgenerierungsverwalter140 einen Dokument-KG606 aus jedem DOM unter Nutzung des Index von Links. -
7 ist ein Diagramm zur Darstellung eines exemplarischen DOM506 in einem JSON-Format. Wie in7 gezeigt ist, listet das DOM den Thementitel702 („Add Text“ bzw. „Text hinzufügen“) am oberen Ende der Hierarchie auf. Weiter unten in der Hierarchie sind die Unterthemen704 , so beispielsweise „About Text“ bzw. „Über den Text“, „Add Text“ bzw. „Text hinzufügen“, „Use the Text on Shape Tool“ bzw. „Nutze den Text über das Formungswerkzeug“ und dergleichen mehr. Auf derselben hierarchischen Ebene wie das Unterthema704 ist eine textartige Beschreibung706 des Themas (die dem textartigen Content312 in3 entspricht) befindlich. - In jedem Unterthema
704 beinhaltet ist ein Linkverweis708 , beispielsweise „1585“ mit dem Unterthema „About Text“ bzw. „Über den Text“ und dergleichen mehr. Jeder Linkverweis708 ist dem gemeinsamen Index der Links entnommen und entspricht einem Link, der das Unterthema erzeugt. - Die textartigen Beschreibungen der Unterthemen sind bei 710 („About text“ bzw. „Über den Text“) und bei 712 („Add Text“ bzw. „Text hinzufügen“) gezeigt. Jede Reihe der textartigen Beschreibung entspricht einem Schritt bei dem Prozess, der in dem entsprechenden Dokument der Sammlung von Dokumenten
202 beschrieben ist. Einige der Reihen der textartigen Beschreibungen beinhalten zudem Linkverweise (beispielsweise „633“ in Zeile [0] der dem Unterthema710 zu eigenen textartigen Beschreibung). Diese Linkverweise entsprechen tatsächlichen Links in dem jeweiligen Dokument der Sammlung von Dokumenten202 . - Es ist ein „Siehe auch“-Eintrag („See also“)
714 bezüglich anderer Themen vorhanden. Bei Erweiterung des Eintrages714 sind Links zu anderen Themen und Unterthemen in anderen Dokumenten der Sammlung von Dokumenten202 zu sehen. Bei716 ist zudem eine Auflistung globaler Links zu anderem Content zu sehen, der nicht in der Sammlung von Dokumenten202 beinhaltet ist. -
8 ist ein Flussdiagramm zur Darstellung von Details des Prozesses210 des Erstellens eines formatierten KG zur Verarbeitung natürlicher Sprache (NLP). Der Prozess210 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
802 führt der Wissensgraphgenerierungsverwalter140 eine Zusammenstellungsoperation an den KGen für jedes Dokument der Sammlung von Dokumenten202 durch, um einen abgeflachten KG806 zu erzeugen. Der abgeflachte oder serialisierte KG806 liegt in einem Format vor, das zur Weiterleitung an eine NLP-Pipeline geeignet ist. Eine derartige NLP-Pipeline zerlegt jede textartige Themenbeschreibung (beispielsweise die textartige Beschreibung706 ) und führt sodann ein semantisches Identifizieren und Extrahieren (beispielsweise ein <S, P, O>-Generieren) aus der textartigen Beschreibung durch. - Bei
804 zeichnet der Wissensgraphgenerierungsverwalter104 sämtliche Linkverweise und die entsprechenden Links (das heißt URLs und Linkanker) auf. Dieses Aufzeichnen ermöglicht, dass die von einem Nutzer empfangenen Suchergebnisse den Nutzer direkt zum relevanten Content in einem Dokument der Sammlung von Dokumenten202 mitnehmen. Bei einigen Implementierungen werden die Verweise und Links in einem JSON-Format aufgezeichnet. -
9 ist ein Diagramm zur Darstellung eines Teiles900 eines exemplarischen abgeflachten KG806 , wie er anhand8 beschrieben worden ist. Dieser Teil kann mit dem DOM506 in einem JSON-Format, wie in7 gezeigt ist, verglichen werden. Wie in9 gezeigt ist, listet der abgeflachte KG806 jeden Thementitel, jedes Unterthema und jede textartige Beschreibung jeweils in einer eigenen Zeile auf. Jede Zeile weist eine Verweiszahl902 anstelle einer hierarchischen Anordnung in einem JSON-Format auf. - Der abgeflachte KG
806 weist zudem Indikatoren904 auf, die angeben, ob eine Zeile in dem abgeflachten KG806 vom Typ „Topix“, „Doctx“, „Triples“ oder „Index“ ist. Der Typ „Topix“ verweist auf Zeilen, die mit dem Thementitel verknüpft sind. „Doctx“ verweist auf Zeilen, die mit textartigem Content verknüpft sind. „Triples“ verweist auf Zeilen, die mit textartigem Content verknüpft sind, der nach semantischem Content zerlegt wird. „Index“ verweist auf Zeilen, die mit Unterthemen verknüpft sind. - Der abgeflachte KG
806 weist zudem hierarchaische DOM-Pfade906 auf, die einer DOM-Struktur eines Dokumentes der Sammlung von Dokumenten202 und Linkverweisen908 entsprechen. -
10 ist ein Diagramm zur Darstellung von Details des Prozesses212 des Durchführens einer semantischen Analyse an dem formatierten KG806 . Der Prozess212 kann von Softwareobjekten durchgeführt werden, die in1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
1002 führt eine NLP-Pipeline (beispielsweise Adobe SedonaNLP) eine MAP/REDUCE-Unterteilungsoperation an dem formatierten KG806 zum Unterteilen in N separate Dateien durch, wobei N die Anzahl der Prozessorkerne ist, auf denen die semantische Analyse durchgeführt wird. Bei einigen Implementierungen nimmt N einen Wert von wenigstens 8 an. Bei einigen Implementierungen ist N wenigstens gleich 16. Bei einigen Implementierungen ist N gleich 52. Eine derartige Unterteilung ist von Vorteil, da die Sammlung von Dokumenten202 mehrere Hundert Dokumente aufweisen kann, wobei jedes Dokument etwa zehn bis zwanzig Unterthemen, Beschreibungen und Detailanweisungen beinhaltet. Der formatierte KG806 kann mehrere Hunderttausend Themen, Unterthemen, Beschreibungen und Anweisungen, die zerlegt und kommentiert werden, beinhalten. - Bei
1004 (das heißt bei 214 in2 ) führt die NLP-Pipeline semantische Analysen an jeder der N separaten Dateien parallel durch. Eine derartige Analyse impliziert ein Generieren eines MAP/REDUCE-Scripts, das jede der N separaten Dateien einer jeweiligen MAP-Prozessinstanz zur parallelen Ausführung zuweist. Das Ausführen des MAP/REDUCE-Scripts in den MAP-Prozessinstanzen erzeugt N abgebildete Dateien. Die N abgebildeten Dateien werden sodann in jeweilige REDUCE-Prozessinstanzen - bei einigen Implementierungen nach einem Sortierprozess durch Schlüssel, die in den MAP-Prozessinstanzen generiert werden - eingegeben, um Schlüsselwort-, Wendungs- und Verb/Objekt-<S, P, O>-Begriffe aus dem abgeflachten KG806 zur endgültigen Schlüsselwortsuche und Vorschlagsindexierung zu erstellen. - Bei
1006 sammelt die NLP-Pipeline alle NLP-Kommentare (beispielsweise die <S, P, O>-Begriffe) für jedes Thema und Unterthema in einer Schlüsselwortsuche und einem Vorschlagsindex1008 . Die NLP-Kommentare werden durch Kennungen (IDs) für jedes Thema und verknüpfte Unterthemen für jedes Dokument der Sammlung von Dokumenten202 identifiziert. Bei einigen Implementierungen sind die Typen der NLP-Kommentare die folgenden: - • exprType == Die Kennung (ID) gibt ein Themenelement in dem KG an. Die Elemente sind die folgenden:
- • exprPOS - das getaggte Part-Of-Speech-Element des Ausdrucks eines Satzes oder einer Wendung
- • exprRole - ein Indikator dafür, ob das expr-Element ein Subjekt, ein Prädikat (beispielsweise ein Verb oder eine Präposition) oder ein Objekt ist
- • exprType - ein Kommentar, der angibt, ob das Element ein Ausdruck mit einem Nomen (NX), einem Verb (VX), einer Präposition (IN) oder einem Adjektiv (AX) ist.
- Alle Themen und Unterthemen in der kompletten Sammlung von Dokumenten
202 werden sodann in einem Hauptdokumentindex zusammengestellt. -
11 ist ein Flussdiagramm zur Darstellung eines exemplarischen NLP-Pipelineprozesses1100 . Der Prozess1100 kam von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die bei einigen Implementierungen in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Der Textcontent
1102 (beispielsweise ein Satz) stellt einen Eingabetext bereit, der zunächst durch ein Textumwandlungsmodul1104 auf UTF-8 normiert wird und sodann von einem Sektionssegmentierer1106 , einem Absatzsegmentierer1108 , einem Satzsegmentierer1100 und einem Worttokenisierer1112 in syntaktische Spracheinheiten segmentiert und tokenisiert wird. Eine Stoppwortfilterung (stopword filtering) 1114 und ein Stemming (stemming) 1116 werden angewendet, um ein strukturiertes Modell der Eingabetextcontentelemente1118 zu generieren. Das Textmodell1118 wird sodann durch den Textmodellindex1120 indexiert und an einen oder mehrere NLP-Analyseabläufe (NLP analysis flows) gesendet. Bei einigen Implementierungen beinhalten die Abläufe (flows) einen N-Gramm-Extraktor1126 , einen N-Gramm-Klassifizierer1128 , einen Themenextraktor1130 , einen Themenklassifizierer und einen N-Gramm-Persistor bzw. N-Gramm-Fortsetzer1134 . Bei einigen Implementierungen beinhalten die Abläufe einen Part-of-Speech-Treebank-Trigger 136, einen <S, P, O>-Tripel-Extraktor1138 , einen Grammatikumwandler (grammar transformer)1140, eine Tripeldatenbank1142 , einen Benennungsentitätsextraktor (named entity extractor) 1144, ein oberes/unteres Ontologiemodul1146 , einen Entitätsklassifizierer1148 und einen für linguistische Kommentare gegebenen Persistor bzw. Fortsetzer (linguistic annotations persister)1150 . - Bei einigen Implementierungen werden die letztgenannten Abläufe (das heißt
1136 bis1150 ) dafür benutzt, bei1136 die Worte eines jeden Thementitels und einer jeden Beschreibung (beispielsweise unter Nutzung der Penn-Treebank) mit Part-of-Speech-Tags zu kommentieren, woraufhin die semantischen <Subjekt, Prädikat, Objekt>-Tripel aus dem kommentierten Text unter Nutzung von1138 extrahiert werden, während das Tagging aller aufgefundenen Nominalbegriffe unter Nutzung externer Wortlexikonontologien, so beispielsweise WordNet und geläufigen Ontologien1144 und1146 , durchgeführt wird. Die getaggten Verb-, Nomen- und Adjektivbegriffe werden von dem Entitätsklassifizierer1148 klassifiziert und kommentiert, um ihre lexikalische Rolle für das spezifische Thema oder Unterthema anzugeben, woraufhin die gesamte Kommentarausgabe in JSON-LD-Form dargestellt und bei1150 zur nachfolgenden Verarbeitung gespeichert wird. -
12 ist ein Flussdiagramm zur Darstellung von Details des Prozesses216 des Generierens eines serialisierten KG mit Kommentaren1206 . Der Prozess216 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit1 beschrieben worden sind, die in dem Speicher126 des Computers120 befindlich sind und die von dem Satz von Verarbeitungseinheiten124 betrieben werden. - Bei
1202 nutzt der Wissensgraphgenerierungsverwalter140 die <S, P, O>-Tripel für die Schlüsselwortsuche und den Vorschlagsindex1008 , um eine serialisierte Datei mit <S, P, O>-Tripel-Kommentaren in einem JSON-Format zu generieren. Da jede unterteilte Datei, die bei1002 (10 ) generiert worden ist, von einem separaten NLP-MAP-Prozess verarbeitet wird, werden alle <S, P, O>-Ergebniskommentare in den generierten JSON-Dateien, die bei1150 (11 ) gespeichert worden sind, bei einigen Implementierungen in eine endgültige zusammengestellte KG-Kommentardatei rückkombiniert, um den <S, P, O>-Index zu generieren. Er hierdurch wird dem Nutzer ermöglicht, - • alle verbalen Handlungen (beispielsweise Erstellen, Bearbeiten, Löschen) aufzufinden, die auf ein einzelnes Objekt (beispielsweise ein Bild, eine Maske) angewendet werden, oder
- • für eine einzige verbale Handlung (beispielsweise Aktualisieren) alle relevanten Objekte aufzufinden, auf die dieses Verb angewendet werden kann (beispielsweise Farbkurven, Farbton und Sättigung, Farbe des Hauttons).
- Die generierten Themen-<S, P, O>-Kommentare aus der NLP-MAP/REDUCE-Verarbeitungsphase werden im JSON-Format dargestellt. Nicht aufgelöste Elternsektionen und ihre entsprechenden Verweis-ID-Anker werden aufgelöst. Exemplarische NLP- und Prädikats-, Objektkommentare für das Unterthema „Define path for spin blur“ bzw. „Pfad für Drehunschärfe definieren“ lauten folgendermaßen:
{„exprPOS“: „PhotoshopElementsID-0029_03-[1746]-[1746]/_SDN.id“, "exprRole": false, "exprType": „ID“ }, {„exprPOS“: „Define/VB“, "exprRole": „PRED-vx-1“, "exprType": „VX“ }, { "exprPOS": „path/NN“, "exprRole": „OBJC-nx-1“, "exprType": „NX“ }, {„exprPOS“: „for/IN“, "exprRole": „OBJC-in-1“, "exprType": „IN“ }, { "exprPOS": „spin/NN blur/NN“, "exprRole": „OBJC-nx-2“, "exprType": „NX“ }
Bei 1204 fügt der Wissensgraphgenerierungsverwalter 140 diese <S, P, O>-Kommentare zu dem serialisierten KG 806 hinzu, um einen serialisierten KG 1206 mit Kommentaren zu erzeugen. Diese <S, P, O>-Kommentare erzeugen, insgesamt betrachtet, Viele-zu-Eins-Beziehungen zur Erstellung der Verb-zu-Nomen-Suchergebnisse. Ein exemplarischer Suchvorgang zum Auffinden aller verbalen Befehle (beispielsweise „in X Erscheinen“ bzw. „appear in“, „zwischen X umwandeln“ bzw. „convert between“, „Erstellen“ bzw. „create“ und dergleichen mehr) für ein spezifisches nominales Objekt (beispielsweise „einen Pfad“) lautet folgendermaßen, wobei die kursive Wendung das Thema ist, das dem jeweiligen Suchergebnis entspricht:
- Feld der Pfade (paths panel) <= in X erscheinen - Zeichenmodi
- Pfade <= zwischen X umwandeln - siehe auch
- Pfad zur Auswahl <= umwandeln - Formen und Pfade verstehen
- Pfade zu Auswahlgrenzen <= umwandeln - siehe auch
- Pfad <= Typ längsläufig oder innen erstellen - Typ entlang oder innerhalb eines Pfades erstellen
- Pfad <= Definieren - Drehunschärfe
- Pfad <= Duplizieren - panorama ocr.png erstellen
- Pfade <= Bearbeiten - Tutorials Photography Jumpstart
- Pfad <= Füllen oder Strich machen - Formen und Pfade verstehen
- Pfad <= Herausfinden, wie man längsläufigen Typ erstellt - Tutorials Photography Jumpstart
- Pfade <= Lernen, wie man umwandelt - Tutorials Photography Jumpstart
- Pfade <= Lernen, wie man bearbeitet oder anpasst - Tutorials Photography Jumpstart
- Pfad <= Bewegen - panorama ocr.png erstellen
Der Suchvorgang ermöglicht auf ähnliche Weise, dass die Nutzer alle Produkt-Nomen-Objekte (beispielsweise „perspektivische Ebenen“ bzw. „perspective planes“, „zusätzliche Datensätze“ bzw. „additional data sets“, „Randbedingungen“ bzw. „constraints“) auffinden, die ein verbaler befehl (beispielsweise „Definieren“ bzw. „Define“) auf die Nutzung von Eins-zu-Viele-Beziehungen für Verb-zu-Nomen anwenden kann. Dies ist nachstehend gezeigt, wobei die kursiven Wendungen das Thema sind, das dem jeweiligen Suchergebnis entspricht:
- Definieren und Anpassen => perspektivische Ebenen - perspektivische Ebenen im Fluchtpunkt definieren und anpassen
- Definieren => zusätzliche Datensätze - einen Datensatz definieren
- Definieren => Randbedingungen zur Angabe gerader Linien - panorama ocr.png erstellen
- Definieren => Datensatz - einen Datensatz definieren
- Definieren => ausgefranster Rand - Ränder der Auswahlen weichmachen
- Definieren => vier Eckknoten der ebenen Oberfläche - panorama ocr.png erstellen
- Definieren => Horizontlinie - Tutorials Photography Jumpset
- Definieren => Pfad - Drehunschärfe
- Definieren => Ebenen - Perspektive anpassen
- Definieren => Punktgrößeneinheit - Typgröße spezifizieren
- Definieren => spezifischer RGB - über Farbprofile
- Definieren => Variablen - einen Datensatz importieren
- Definieren => Variablen - Variablen definieren
Bei 1302 führt der Antwortvorschlagsvorausschauindexverwalter 160 eine Textauswertungsoperation an einem Suchanfrageprotokoll (beispielsweise an den Suchanfrageprotokolldaten 152 in 1 ) durch, um gängige Suchfragen zu identifizieren. Bei einigen Implementierungen beruht die Textauswertungsoperation auf einer Frage- oder Schlüsselworthäufigkeit in dem Suchwortprotokoll. Die gängigen Fragen werden dafür benutzt, neues Nutzervokabular, das in einem Suchsystem oder der Sammlung von Dokumenten 202 unbekannt ist, aufzufinden und zu extrahieren. Unter Nutzung dieser Technik werden Fragen wie beispielsweise „Wie entferne ich Teufelsaugen?“, wo „Teufelsaugen“ ein unbekannter Begriff ist, ohne Weiteres aufgefunden und können auf äquivalente Fragen über das Werkzeug zur „Entfernung roter Augen“ abgebildet werden.
Bei 1304 nutzt der Antwortvorschlagsvorausschauindexverwalter 160 den serialisierten KG 1206 zum Identifizieren und Bilden von (Antwort, Link)-Paaren.
Bei 1306 nutzt der Antwortvorschlagsvorausschauindexverwalter 160 gängige Suchfragen als Kandidatenbegriffe, die mit zugrunde liegenden Worten in Antwortvorschlägen verknüpft werden sollen. Bei einigen Implementierungen kann diese Nutzung mit der Sammlung von Dokumenten 202 und neu erlerntem Vokabular für Themen, Titel und/oder Sätze bewerkstelligt werden.
Bei 1308 kuratiert (curate) der Antwortvorschlagsvorausschauindexverwalter 160 Abbildungen von Kandidatenbegriffen auf Formaldokumentworte, um den Hauptindexvorschlagsvorausschauindex 1310 zu erzeugen. Die Kandidatenbegriffe werden von der Textauswertung aufgefunden. Bei einigen Implementierungen kann das Kuratieren von einem Contentbearbeiter bzw. Contenteditor durchgeführt werden. Das Kuratieren kann ermöglichen, dass die neuen Vokabularabbildungen Prüfungen (reviews) sind und zur Überwachung hinzugefügt werden.
Ein Prozess des automatischen Abbildens von Kandidatenvokabularbegriffen, die aus dem Nutzersuchprotokoll erlernt werden, kann dadurch bewerkstelligt werden, dass das Volumen bzw. der Umfang der Anfragesuchprotokolldaten vergrößert wird, wo eine Textauswertung erfolgt und wo sodann eine Begriffsanzahlschwelle statistisch bestimmt wird, um zu entscheiden, wann neue Begriffe angenommen werden sollen, die mit den formell zugrunde liegenden Begriffen über das Dokument der Sammlung von Dokumenten 202 entsprechend einem bestimmten Thema verknüpft werden sollen.
Für den automatischen Erwerb neuer Vokabularbegriffe, die von einem Kunden benutzt werden, wird ein Satz von Anfrageprotokolleintragspaaren, die aus (Anfrage, Begriff, Link)-Paaren bestehen, verarbeitet und geclustert, um äquivalente Formulierungen oder Schlüsselbegriffe für jedes Thema oder Unterthema des Dokumentes der Sammlung von Dokumenten 202 entsprechend der bestimmten Themenseite zu bestimmen. Aufgefundene Formulierungen oder Kandidatenbegriffe, deren Auftretenszahl über der probenbasierten Schwelle ist, werden sodann ausgewählt und in den Wissensgraphthemen, Unterthemen, <S, P, 0>-Tripel-Kommentierungen und im Beschreibungsindex aufgenommen.
Wie in 2 gezeigt ist, verwendet bei 220 der Antwortvorschlagsvorausschauverwalter 160 Wissensgraphthemenantworten für semantische Vorausschauvorschläge. Diese Verwendung sendet Antworten an einen Frontend-Browser oder einen Mobiltelefonclient. Dieser Prozess ermöglicht, dass der Frage-Antwort-Vorschlagsvorausschauverwalter 160 , so dies gewünscht ist, unabhängig von einem Backend-Suchsystem arbeitet. Der generierte Antwortvorschlagsvorausschauindex 1310 unterstützt einen generalisierten Konzeptabgleich und nicht nur einen strengen Schlüsselwortabgleich, wie dies bestehende Suchsysteme oder Open-Source-Vorausschaumodule tun.
Bei 1404 generiert der Antwortvorschlagsvorausschauverwalter 160 eine Matrix ω, die allen möglichen Kombinationen von Gewichtungen für vier Typen von Dokumenttextelementen entspricht, um die Feldebenenindexierung (field level indexing) während der Suche auszunutzen, nämlich für Themen, Objekte, Prädikate und textartige Beschreibungen. Ein Grund für die Gewichtungen liegt darin, dass die Dokumenttextelemente, die vorstehend identifiziert worden sind, variierende Wichtigkeit aufweisen. Die Gewichtungen werden zur Indexierungs- und Anfrageverarbeitung genutzt. Die Auswahl der Gewichtungen wird unter Nutzung von Frage/Antwort-Paaren auf Grundlage der tatsächlichen (Anfrage, Link)-Paare durchgeführt. Bei einigen Implementierungen werden derartige Paare durch ein Produktdokumentationsqualitätsteam erstellt. Bei einigen Implementierungen sind derartige Paare in den Adobe-Suchprotokollen vorzufinden. Diese Paare werden genutzt, um Indexfeldgewichtungen für die Suchmaschine während der Anfrageverarbeitung zu bestimmen, wodurch die Antwort- oder Suchergebnisrelevanz wesentlich verbessert wird.
Jede Spalte der Matrix ω entspricht einem jeweiligen Dokumenttextelement, nämlich der Thementitelfeldgewichtung ωtopic, einer <S, P, O>-Prädikatfeldgewichtung ωpredicate, einer <S, P, O>-Objektfeldgewichtung ωobject und einer Thementextfeldgewichtung ωtext.
Bei 1406 bildet der Antwortvorschlagsvorausschauverwalter 160 eine Merit-Funktion auf Grundlage dessen, ob eine Suchfunktionsausgabe, die die Gewichtungen aus einer Reihe der Matrix ω nutzt, eine korrekte Ground-Truth-Anfrage erzeugt. Die Ground Truths sind ein Satz von Paaren (Anfrage qi, Link LGTi), die von Menschen kuratiert werden, und die als perfekter Standard („Goldstandard“) bekannt sind. Dies bedeutet dass die Ground Truths einen Satz von Links darstellen, der von einem Nutzer ausgewählt wird, nachdem der Nutzer eine Anfrage in eine Suchmaschine eingegeben hat. In Reaktion auf die Anfrage qi = „Bildunterschrift zu Bild hinzufügen“ bzw. „add caption to image“ wählt der Nutzer beispielsweise den Link LGTi = https://helpx.adobe.com/photoshop-elements/using/add-text.html aus.
Hierbei sind Sk mit k ∈ {1,2, ..., m} Kennwerte, die den Links Lk entsprechen, die von der Suchmaschine ausgegeben werden. Dies bedeutet, dass die Suchmaschine die obersten m Links entsprechend den Kennwerten auf Grundlage der benutzten Gewichtungen ausgibt.
Von Interesse ist die Bestimmung dessen, welche Gewichtungen die korrektesten Ground-Truth-Anfragen ausgeben. Bei einigen Implementierungen kann eine derartige Bestimmung unter Nutzung der nachfolgenden Merit-Funktion vorgenommen werden:
Hierbei sind K die Ground Truths, und es gilt:
Lk stellt hierbei einen Link dar, der von der Funktion fsearch ausgegeben wird
Bei 1408 nutzt der Antwortvorschlagsvorausschauverwalter 160 die Merit-Funktion, um die Reihe 1410 der Matrix zu identifizieren, die die Anzahl von Ground-Truth-Anfragen maximiert. ω' stellt daher die Werte der vier Gewichtungen dar, die die Anzahl von Ground-Truth-Anfragen maximieren. Bei einigen Implementierungen hat man herausgefunden, dass derartige Gewichtungswerte gleich (ωtopic, ωpredicate, ωobject, ωtext) = (0,44, 0,22, 0,22, 0,11) sein können.
Die vorstehenden Erläuterungen stellen darauf ab, den Antwortvorschlagsvorausschauindex und die Suchmaschine zu bilden, die eine Antwort auf eine Nutzeranfrage auf Grundlage der Absicht des Nutzers bereitstellt. Dennoch ist ein Frontend der Suchmaschine vorhanden, das Anfragen als Eingabe annimmt und bei einigen Implementierungen Antwortkarten bereitstellt, die die Antwort für die von dem Nutzer beabsichtigte Nutzeranfrage direkt bereitstellen.
Bei 1502 generiert der Antwortkartenpräsentationsverwalter 180 „Wie man“- und „was ist“-Antwortkarten als JSON-formatierte Dateien. Jede Antwortkarte basiert auf einer textartigen Beschreibung, die einem Thema oder Unterthema eines Dokumentes der Sammlung von Dokumenten 202 entspricht. Die Antwortkarten werden anhand 16A und 16B detaillierter beschrieben.
Bei 1504 definiert der Antwortkartenpräsentationsverwalter 180 eine Heuristik, um Hilfeanweisungsschritte zu identifizieren. Eine Heuristik impliziert beispielsweise ein Klassifizieren von Texten, beginnend mit „<Anzahl>“ oder „Schritt <Anzahl>“ als Schritt. Andere Heuristiken beinhalten das Erlernen eines Markups innerhalb des Hilfewebpagetextes, der die Schrittelemente angibt, so beispielsweise CSS-Klassennamen wie beispielsweise „Schritttitel“ oder „Überschrift“.
Bei 1506 extrahiert der Antwortkartenpräsentationsverwalter 180 Prozedurtitel durch Extrahieren eines Eltern-Titel-DOM-Knotens der Schrittknoten. Für jeden Schrittknoten ist die Spanne (span) des Schrittes beinhaltet, damit mehr DOM-Knoten beinhaltet sind. Als Beispiel werde die JSON-„Wie man“-Darstellung bei 1502 betrachtet. In der Auflistung werden die DOM-Knoten, die mit „1. Um eine Kurvenanpassung anzuwenden ...“ bzw. „1. To apply a Curves adjustment“ und „2. Werde eines vom Folgenden ausgeführt“ bzw. „2. Do one of the following“ etc. beginnen, als Schritt (durch heuristische Regeln) extrahiert. Sodann wird die Spanne (span) eines jeden Schrittes erweitert. So wird die Spanne von Schritt 2 beispielsweise derart erweitert, dass sie die nächsten Zeilen bis zu Schritt 3 , nämlich „Den Kurvenicon anklicken“ bzw. „Click the Curves Icon“ beinhaltet. Sobald die Schritte identifiziert sind, extrahiert die Pipeline deren Prozedurtitel, indem sie den Eltern-Titel-DOM-Knoten der Schrittknoten extrahiert. Beim vorliegenden Beispiel wird „Bildfarbe und Ton an Kurven anpassen“ bzw. „Adjust image color and tone with Curves“ als Titel für die Schritte extrahiert.
Bei 1508 erstellt der Antwortkartenpräsentationsverwalter 180 eine Wissensbasis bzw. Wissensdatenbank von Antwortkarten, aus denen die besten Antworten für eine gegebene Anfrage abgerufen werden können, und pflegt diese. Unter Nutzung der Wissensbasis bzw. Wissensdatenbank nutzt für eine beliebige Eingabefrageabsicht eine Durchsuchung der Fragedatenbank eine semantische Ähnlichkeitssuche, um die kanonische Frage und die verknüpfte Antwortkarte zu lokalisieren.
Bei 1510 präsentiert der Antwortkartenpräsentationsverwalter 180 dem Nutzer die Antwortkarte auf einer Ausgabevorrichtung (beispielsweise der Anzeige 190 in 1 ).
Bei 1702 empfängt der Computer 120 Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet.
Bei 1704 generiert der Computer 120 Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet.
Bei 1706 empfängt der Computer 120 einen Nutzeranfragestring.
Bei 1708 lokalisiert der Computer 120 in Reaktion auf den Nutzeranfragestring einen semantisch äquivalenten Begriff eines Begriff/Link-Paares der mehreren Begriff-Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird.
Bei 1710 gibt der Computer 120 eine Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung aus.
Es ist eine Anzahl von Ausführungsformen beschrieben worden. Es sollte jedoch einsichtig sein, dass verschiedene Abwandlungen daran vorgenommen werden können, ohne vom Wesen und Umfang der Beschreibung abzugehen.
Es sollte zudem einsichtig sein, dass dann, wenn von einem Element gesagt wird, dass es auf einem anderen Element ist, mit diesem verbunden ist, mit diesem elektrisch verbunden ist, mit diesem gekoppelt ist oder mit diesem elektrisch gekoppelt ist, es direkt auf dem anderen Element, mit diesem verbunden oder mit diesem gekoppelt sein kann, oder ein oder mehrere zwischenliegende Elemente vorhanden sein können. Im Gegensatz hierzu sind, wenn von einem Element gesagt wird, dass es direkt auf einem anderen Element ist, direkt mit diesem verbunden ist oder direkt mit diesem gekoppelt ist, keine zwischenliegenden Elemente vorhanden. Obwohl die Begriffe „direkt auf“, „direkt verbunden mit“ oder „direkt gekoppelt mit“ gegebenenfalls nicht in der Detailbeschreibung benutzt werden, können Elemente, die so dargestellt sind, dass sie direkt auf etwas sind, direkt mit etwas verbunden sind oder direkt mit etwas gekoppelt sind, als solche bezeichnet werden. Die Ansprüche der Anmeldung können verändert werden, um exemplarische Beziehungen, die in der Beschreibung beschrieben oder in den Figuren gezeigt sind, aufzunehmen.
Obwohl bestimmte Merkmale der beschriebenen Implementierungen gemäß der vorliegenden Beschreibung dargestellt worden sind, erschließen sich einem Fachmann zahlreiche Modifikationen, Ersetzungen, Änderungen und Äquivalente. Es sollte daher einsichtig sein, dass die beigefügten Ansprüche all diese Modifikationen und Änderungen abdecken sollen, so sie in den Umfang der Implementierungen fallen. Es sollte zudem einsichtig sein, dass diese lediglich im Sinne von Beispielen und nicht im Sinne einer Beschränkung präsentiert worden sind und verschiedene Änderungen an Form und Details vorgenommen werden können. Ein beliebiger Abschnitt der Einrichtungen und/oder Verfahren, die hier beschrieben werden, kann in einer beliebigen Kombination kombiniert werden, außer es ergeben sich einander wechselseitig ausschließende Kombinationen. Die hier beschriebenen Implementierungen können verschiedene Kombinationen und/oder Unterkombinationen der Funktionen, Komponenten und/oder Merkmale der verschiedenen beschriebenen Implementierungen beinhalten.
Zudem erfordern die logischen Abläufe, die in den Figuren beschrieben sind, nicht die bestimmte gezeigte Reihenfolge oder eine sequenzielle Reihenfolge, um gewünschte Ergebnisse zu erzielen. Darüber hinaus können weitere Schritte vorgesehen sein, es können Schritte aus den beschriebenen Abläufen gestrichen werden, oder es können weitere Komponenten zu den beschriebenen Systemen hinzugefügt oder aus diesen entfernt werden. Entsprechend sind auch andere Ausführungsformen innerhalb des Umfangs der nachfolgenden Ansprüche.
Claims (20)
- Computerimplementiertes Verfahren, umfassend: Empfangen von Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet; Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet; Empfangen eines Nutzeranfragestrings; in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgendes Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird; und Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung.
- Verfahren nach
Anspruch 1 , wobei das Generieren der Antwortvorschlagsvorausschauindexdaten beinhaltet: Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraph darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht. - Verfahren nach
Anspruch 2 , wobei das Generieren der Antwortvorschlagsvorausschauindexdaten des Weiteren beinhaltet: Generieren von semantischen Kommentardaten, die jeweilige semantische Kommentare zu dem Thema und Satz von Unterthemen eines jeden der Sammlung von Dokumenten darstellen, wobei jeder der semantischen Kommentare ein jeweiliges Prädikat eines Satzes von Prädikaten und ein jeweiliges Objekt eines Satzes von Objekten beinhaltet; für jedes Prädikat des Satzes von Prädikaten erfolgendes Identifizieren wenigstens eines Objektes des Satzes von Objekten, die, wenn sie mit jenem Prädikat kombiniert werden, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entsprechen; und für jedes Objekt des Satzes von Objekten erfolgendes Identifizieren wenigstens eines Prädikates des Satzes von Prädikaten, die, wenn sie mit jenem Objekt kombiniert werden, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entsprechen. - Verfahren nach
Anspruch 2 oder3 , wobei das Generieren der Themenwissensgraphdaten beinhaltet: für jedes Dokument der Sammlung von Dokumenten erfolgendes Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jedem Dokument entspricht, wobei das DOM jedem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content eines jeden Dokumentes beinhaltet; und Zusammenstellen des Satzes von DOMen zum Generieren einer Master- bzw. Hauptlinkliste für den Themenwissensgraphen, wobei die Master- bzw. Hauptlinkliste mehrere eindeutige Links zu dem Content der Sammlung von Dokumenten beinhaltet. - Verfahren nach einem der
Ansprüche 2 bis4 , wobei das Generieren der Themenwissensgraphdaten beinhaltet: für jedes Dokument der Sammlung von Dokumenten erfolgendes Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jenem Dokument entspricht, wobei das DOM jenem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content jenes Dokumentes beinhaltet; und Formatieren des Satzes von DOMen zum Erzeugen eines zusammengestellten abgeflachten Wissensgraphen, der für eine für die Verarbeitung natürlicher Sprache (NLP) gegebene Pipeline formatiert ist. - Verfahren nach
Anspruch 5 , wobei der zusammengestellte abgeflachte Wissensgraph wenigstens eines von dem Thema und Satz von Unterthemen eines jeden DOM des Satzes von DOMen beinhaltet, wobei die NLP-Pipeline dafür konfiguriert ist, <S, P, O>-Tripel zu erzeugen, die aus Subjekt, Prädikat und Objekt für jedes von dem Thema und Satz von Unterthemen eines jeden des Satzes von DOMen bestehen. - Verfahren nach
Anspruch 5 oder6 , wobei das Generieren der Themenwissensgraphdaten des Weiteren beinhaltet: Unterteilen des zusammengestellten abgeflachten Wissensgraphen zum Erzeugen von mehreren zusammengestellten abgeflachten Wissensgraphteilen; und Durchführen einer Verarbeitung natürlicher Sprache durch die NP-Pipeline an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen zum Erzeugen des Wissensgraphen, wobei die Verarbeitung natürlicher Sprache an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen parallel durchgeführt wird. - Verfahren nach einem der
Ansprüche 5 bis7 , wobei das Generieren des DOM des Satzes von DOMen beinhaltet: Identifizieren von nichtinformativem Content eines jeden Dokumentes der Sammlung von Dokumenten; und Entfernen des nichtinformativen Contents jenes Dokumentes zum Erzeugen des Themas, des Satzes von Unterthemen und der Links zu dem Content jenes Dokumentes, wobei das Entfernen ein Anwenden eines TF-IDF-Algorithmus (Term Frequency Inverse Document Frequency TF-IDF) an jenem Dokument beinhaltet. - Verfahren nach einem der
Ansprüche 5 bis8 , wobei das Generieren des DOM des Satzes von DOMen beinhaltet: Neuformatieren eines jeden Dokumentes der Sammlung von Dokumenten zum Erzeugen des Dokumentes, das in einer Markdown-Markup-Sprache (MDML) formatiert ist. - Computerprogrammerzeugnis, das ein nichttemporäres Speichermedium umfasst, wobei das Computerprogrammerzeugnis Code beinhaltet, der bei Ausführung durch Verarbeitungsschaltkreise eines Computers, der dafür konfiguriert ist, einen Nutzer auf Grundlage einer semantischen Interpretation einer von dem Nutzer eingegebenen Anfrage zu Content zu leiten, veranlasst, dass die Verarbeitungsschaltkreise ein Verfahren durchführen, wobei das Verfahren umfasst: Empfangen von Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet; Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet; Empfangen eines Nutzeranfragestrings; in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgendes Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird; und Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung.
- Computerprogrammerzeugnis nach
Anspruch 10 , wobei das Generieren der Antwortvorschlagsvorausschauindexdaten beinhaltet: Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraphen darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht. - Computerprogrammerzeugnis nach
Anspruch 11 , wobei das Generieren der Antwortvorschlagsvorausschauindexdaten beinhaltet: Beziehen von Suchanfrageprotokolldaten, wobei die Suchanfrageprotokolldaten eine Abbildung zwischen Nutzeranfragedaten und Links zu Content der Sammlung von Dokumenten darstellen, wobei die Nutzeranfragedaten mehrere Nutzeranfragen darstellen; und Durchführen einer Textauswertungsoperation an den Suchanfrageprotokolldaten zum Erzeugen eines Satzes von gängigen Nutzeranfragen für eines von einem Thema oder einem jeweiligen Unterthema eines Satzes von Unterthemen eines Dokumentes der Sammlung von Dokumenten, wobei jedes von dem Thema und Satz von Unterthemen mit jeweiligem Content, der einem jeweiligen Link entspricht, verknüpft ist. - Computerprogrammerzeugnis nach
Anspruch 12 , wobei das Generieren der Antwortvorschlagsvorausschauindexdaten des Weiteren beinhaltet: Bilden von Paaren aus (i) einer jeweiligen Nutzeranfrage des Satzes von gängigen Nutzeranfragen und (ii) einem jeweiligen Link zu Content der Sammlung von Dokumenten, wobei jedes Paar auf kommentierten Themen und Sätzen von Unterthemen des Themenwissensgraphen beruht, wobei die kommentierten Themen und Sätze von Unterthemen Thementitel und <S, P, O>-Tripel beinhalten, die aus Subjekt, Prädikat und Objekt für jedes der Themen und Sätze von Unterthemen bestehen, und wobei das Erzeugen des Links zu spezifischem Content in der Sammlung von Dokumenten beinhaltet: Identifizieren eines Paares aus einer Nutzeranfrage und einem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt. - Computerprogrammerzeugnis nach
Anspruch 13 , wobei das Bilden der Paare aus Nutzeranfrage und Link zu dem Content beinhaltet: Generieren einer jeweiligen Gewichtung, die jedem von einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht, wobei das Identifizieren des Paares aus der Nutzeranfrage und dem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt, beinhaltet: Generieren einer Linearkombination aus dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content unter Nutzung der jeweiligen Gewichtung entsprechend jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content des Satzes von gängigen Nutzeranfragen, die am besten zu derselben Linearkombination aus einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Nutzeranfragestring passt. - Computerprogrammerzeugnis nach
Anspruch 14 , wobei das Generieren der jeweiligen Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht, beinhaltet: Generieren einer Matrix, die mehrere Reihen aufweist, wobei jede der mehreren Reihen Elemente aufweist, die gleich einer jeweiligen Gewichtung des Thementitels, des Subjektes, des Prädikates und des textartigen Contents sind; für jedes der Paare aus Nutzeranfrage und Link zu dem Content des Satzes von gängigen Nutzeranfragen erfolgendes Bilden einer Merit-Funktion, die als Argumente (i) eine Suchfunktion der Nutzeranfragedaten, die Links zu Content der Sammlung von Dokumenten und eine Reihe der Matrix und (ii) einen bestimmten Link zu Content der Sammlung von Dokumenten nimmt, wobei die Suchfunktion einen Link als Ausgabe ausgibt, wobei die Merit-Funktion in Reaktion darauf, dass die Linkausgabe der Suchfunktion gleich dem bestimmten Link ist, einen Wert von 1 und in Reaktion darauf, dass die Linkausgabe der Suchfunktion nicht gleich dem bestimmten Link ist, einen Wert von 0 aufweist; und Identifizieren der Reihe der Matrix, die bewirkt, dass die Merit-Funktion einen Maximalwert annimmt, als diejenige Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entspricht. - Elektronische Einrichtung, die dafür konfiguriert ist, einen Nutzer auf Grundlage einer semantischen Interpretation einer durch den Nutzer eingegebenen Anfrage zu Content zu leiten, wobei die elektronische Einrichtung umfasst: eine Netzwerkschnittstelle; einen Speicher; und Steuer- bzw. Regelschaltkreise, die mit dem Speicher gekoppelt sind, wobei die Steuer- bzw. Regelschaltkreise konfiguriert sind zum: Empfangen von Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet; Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet; Empfangen eines Nutzeranfragestrings; in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgenden Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird; und Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung.
- Elektronische Einrichtung nach
Anspruch 16 , wobei die Steuer- bzw. Regelschaltkreise, die zum Generieren der Antwortvorschlagsvorausschauindexdaten konfiguriert sind, des Weiteren konfiguriert sind zum: Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraph darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht. - Elektronische Einrichtung nach
Anspruch 17 , wobei der Wissensgraph des Weiteren für ein Thema Links zu Content, der anderen Themen entspricht, beinhaltet. - Elektronische Einrichtung nach einem der
Ansprüche 16 bis18 , wobei die Steuer- bzw. Regelschaltkreise, die zum Ausgeben der Darstellung des Links des lokalisierten Begriff/Link-Paares an die Ausgabevorrichtung konfiguriert sind, des Weiteren konfiguriert sind zum: Anzeigen einer Antwortkarte, die dem Link des lokalisierten Begriff/Link-Paares entspricht, wobei die Antwortkarte ein Fenster beinhaltet, in dem der Content, der dem Link entspricht, enthalten ist. - Elektronische Einrichtung nach einem der
Ansprüche 16 bis19 , wobei die Steuer- bzw. Regelschaltkreise, die zum Lokalisieren des semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare konfiguriert sind, des Weiteren konfiguriert ist zum: Lokalisieren von Content, der Text beinhaltet, der einen Schritt eines Prozesses angibt; und Identifizieren des Themas, dem der Content entspricht.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/020,328 US11120059B2 (en) | 2018-06-27 | 2018-06-27 | Conversational query answering system |
US16/020,328 | 2018-06-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019001267A1 true DE102019001267A1 (de) | 2020-01-02 |
Family
ID=66379642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019001267.4A Pending DE102019001267A1 (de) | 2018-06-27 | 2019-02-21 | Dialogartiges System zur Beantwortung von Anfragen |
Country Status (5)
Country | Link |
---|---|
US (1) | US11120059B2 (de) |
CN (1) | CN110647618A (de) |
AU (1) | AU2019201531B2 (de) |
DE (1) | DE102019001267A1 (de) |
GB (1) | GB2575141A (de) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11144337B2 (en) * | 2018-11-06 | 2021-10-12 | International Business Machines Corporation | Implementing interface for rapid ground truth binning |
US11093740B2 (en) * | 2018-11-09 | 2021-08-17 | Microsoft Technology Licensing, Llc | Supervised OCR training for custom forms |
US11841867B2 (en) * | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
WO2021174249A1 (en) * | 2020-02-25 | 2021-09-02 | Transposit Corporation | Markdown data content with action binding |
CN111460172A (zh) * | 2020-03-31 | 2020-07-28 | 北京小米移动软件有限公司 | 产品问题的答案确定方法、装置和电子设备 |
CN111143540B (zh) * | 2020-04-03 | 2020-07-21 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、设备及存储介质 |
US11947920B2 (en) * | 2020-09-15 | 2024-04-02 | Boe Technology Group Co., Ltd. | Man-machine dialogue method and system, computer device and medium |
CN112650838B (zh) * | 2020-12-31 | 2023-07-14 | 南京视察者智能科技有限公司 | 一种基于历史案件大数据的智能问答方法及系统 |
CN113157882B (zh) * | 2021-03-31 | 2022-05-31 | 山东大学 | 以用户语义为中心的知识图谱路径检索方法及装置 |
CN113239688B (zh) * | 2021-05-24 | 2022-04-08 | 北京中科汇联科技股份有限公司 | 一种条件实体提取方法 |
US20230325580A1 (en) * | 2022-04-10 | 2023-10-12 | Atlassian Pty Ltd. | Multi-mode display for documents in a web browser client application |
CN115587175B (zh) * | 2022-12-08 | 2023-03-14 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机对话及预训练语言模型训练方法、系统及电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1508861A1 (de) * | 2002-05-28 | 2005-02-23 | Vladimir Vladimirovich Nasypny | Verfahren zum synthetisieren eines selbstlernenden systems zur wissensanschaffung für textabrufsysteme |
US9645993B2 (en) * | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
EP2406731A4 (de) * | 2009-03-13 | 2012-08-22 | Invention Machine Corp | System und verfahren zur automatischen semantischen markierung von natürlichen sprachtexten |
US10817884B2 (en) * | 2014-05-08 | 2020-10-27 | Google Llc | Building topic-oriented audiences |
RU2605077C2 (ru) * | 2015-03-19 | 2016-12-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система для хранения и поиска информации, извлекаемой из текстовых документов |
CN108027817B (zh) * | 2015-12-30 | 2022-05-10 | 谷歌有限责任公司 | 基于用户的组关联建议查询 |
-
2018
- 2018-06-27 US US16/020,328 patent/US11120059B2/en active Active
-
2019
- 2019-02-18 CN CN201910120679.0A patent/CN110647618A/zh active Pending
- 2019-02-21 DE DE102019001267.4A patent/DE102019001267A1/de active Pending
- 2019-03-01 GB GB201902764A patent/GB2575141A/en not_active Withdrawn
- 2019-03-05 AU AU2019201531A patent/AU2019201531B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
GB2575141A (en) | 2020-01-01 |
AU2019201531A1 (en) | 2020-01-16 |
AU2019201531B2 (en) | 2021-08-12 |
CN110647618A (zh) | 2020-01-03 |
US11120059B2 (en) | 2021-09-14 |
US20200004873A1 (en) | 2020-01-02 |
GB201902764D0 (en) | 2019-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102019001267A1 (de) | Dialogartiges System zur Beantwortung von Anfragen | |
US10482115B2 (en) | Providing question and answers with deferred type evaluation using text with limited structure | |
US10324967B2 (en) | Semantic text search | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
US20180068409A1 (en) | Patent mapping | |
DE102013205737A1 (de) | System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen | |
DE112018006345T5 (de) | Abrufen von unterstützenden belegen für komplexe antworten | |
DE112017006151T5 (de) | Anpassbare Verarbeitungskomponenten | |
AU2021212025B2 (en) | Intelligent question answering on tabular content | |
US20150254353A1 (en) | Control of automated tasks executed over search engine results | |
DE112012001750T5 (de) | Automatisierte Selbstbedienungs-Benutzerunterstützung auf der Grundlage der Ontologieanalyse | |
DE60101668T2 (de) | Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument | |
DE102013003055A1 (de) | Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache | |
EP2354968A1 (de) | Hyperadapter und Verfahren zum Zugreifen auf Dokumente in einer Dokumentenbasis | |
DE112020005268T5 (de) | Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache | |
DE102012221251A1 (de) | Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern | |
Bhatia et al. | Semantic web mining: Using ontology learning and grammatical rule inference technique | |
DE112020004417T5 (de) | Selektives tiefes parsing von inhalten in natürlicher sprache | |
Kruschwitz | Intelligent document retrieval: exploiting markup structure | |
CN111951079A (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
Morie et al. | Information extraction model to improve learning game metadata indexing | |
Hamborg | Towards Automated Frame Analysis: Natural Language Processing Techniques to Reveal Media Bias in News Articles | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
Jatwani et al. | Design of relation extraction framework to develop knowledge base | |
Ong et al. | Ontological based webpage classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017200000 Ipc: G06F0040000000 |
|
R012 | Request for examination validly filed |