DE102019001267A1

DE102019001267A1 - Dialogartiges System zur Beantwortung von Anfragen

Info

Publication number: DE102019001267A1
Application number: DE102019001267.4A
Authority: DE
Inventors: Walter W. Chang; Jonathan Brandt; Doo Soon Kim
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2018-06-27
Filing date: 2019-02-21
Publication date: 2020-01-02
Also published as: GB2575141A; AU2019201531A1; AU2019201531B2; CN110647618A; US11120059B2; US20200004873A1; GB201902764D0

Abstract

Techniken, die einen Nutzer auf Grundlage einer semantischen Interpretation einer von dem Nutzer eingegebenen Anfrage zu Content leiten, implizieren ein Generieren von Links zu bestimmtem Content in einer Sammlung von Dokumenten in Reaktion auf eine Nutzerstringanfrage, wobei die Links auf Grundlage eines Antwortvorschlagsvorausschauindex generiert werden. Der Antwortvorschlagsvorausschauindex verweist auf eine Abbildung zwischen mehreren Gruppen von semantisch äquivalenten Begriffen und einem jeweiligen Link zu bestimmtem Content der Sammlung von Dokumenten. Diese Dokumente sind für die verallgemeinerte Aufgabe einer Beantwortung von Fragen in natürlicher Sprache von Nutzen.

Description

Technisches Gebiet
Die vorliegende Beschreibung betrifft ein Anfragebeantwortungssystem, das Verarbeitung natürlicher Sprache (Natural Language Processing NLP) nutzt.
Hintergrund
Manche Suchassistenten können mögliche Suchlinks generieren, wenn ein Nutzer Worte in ein Textkästchen des Suchassistenten eintippt. Tippt ein Nutzer beispielsweise die Frage „Wie entferne ich Teufelsaugen?“ ein, so kann der Suchassistent einen neuen Satz von Suchstrings präsentieren, die die Frage vorwegnehmen. Insbesondere kann der Suchassistent in Reaktion darauf, dass der Nutzer „Wie entferne ich“ eintippt, den String „Wie entferne ich eine App?“ präsentieren.
Ein herkömmlicher Suchassistent generiert mögliche Suchstrings auf Grundlage einer Nachschlageoperation, die an einer Zusammenstellung von Suchstrings, die von einer großen Menge von Nutzern bereitgestellt worden ist, durchgeführt wird. Um beispielsweise in Reaktion darauf, dass ein Nutzer „Wie entferne ich“ eintippt, mögliche Suchstrings zu generieren, schlägt der Suchassistent alle möglichen Suchstrings, die die Worte „Wie entferne ich“ aufweisen, nach. Tippt der Nutzer zusätzliche Worte in das Textkästchen ein, so führt der Suchassistent die Nachschlageoperation dynamisch einschließlich des neuen Wortes durch, um einen neuen Satz von Suchstrings zu erzeugen. In Reaktion darauf, dass der Nutzer einen Suchstring wählt, zeigt der Suchassistent einen Satz von Suchergebnissen auf Grundlage von Standardsuchalgorithmen an.
Der vorbeschriebene herkömmliche Suchassistent verfügt über keine Mittel, genaue Suchstrings auszugeben, wenn die von dem Nutzer eingetippte Frage keine Worte enthält, die in der Zusammenstellung von Suchstrings vorkommen. Es sind Versuche hinsichtlich eines intelligenteren Suchassistenten unternommen worden, der dazu fähig sein soll, in diesem Fall genaue Suchstrings zu generieren.
Bedauerlicherweise hatten diese Versuche bislang allenfalls marginalen Erfolg.
Zusammenfassung
Bei einem allgemeinen Aspekt kann ein Verfahren ein Empfangen von Dokumentdaten beinhalten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet. Das Verfahren kann zudem ein Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten beinhalten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet. Das Verfahren kann des Weiteren ein Empfangen eines Nutzeranfragestrings beinhalten. Das Verfahren kann des Weiteren ein in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgendes Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare beinhalten, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird. Das Verfahren kann des Weiteren ein Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung beinhalten.
Details einer oder mehrerer Implementierungen sind in der begleitenden Zeichnung und der nachfolgenden Beschreibung niedergelegt. Weitere Merkmale erschließen sich aus der Beschreibung und der Zeichnung sowie aus den Ansprüchen.
Figurenliste

1 ist ein Diagramm zur Darstellung einer exemplarischen elektronischen Umgebung, in der hier beschriebene verbesserte Techniken implementiert sein können.
2 ist ein Flussdiagramm zur Darstellung eines exemplarischen Verfahrens des Aufbauens der semantischen Vorausschaumaschine für den Suchassistenten entsprechend den verbesserten Techniken.
3 ist ein Diagramm zur Darstellung eines exemplarischen Abschnittes eines Dokumentes einer Sammlung von Dokumenten eines Hilfesystems.
4 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens einer semantischen Kommentardatei.
5 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Dokumentobjektmodells (DOM) aus einer semantischen Kommentardatei.
6 ist ein Diagramm zur Darstellung eines exemplarischen DOM für ein Dokument der Sammlung von Dokumenten.
7 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Wissensgraphen für ein Dokument auf Grundlage des DOM für jenes Dokument.
8 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Wissensgraphen, der für eine NLP-Pipeline (Verarbeitung natürlicher Sprache NLP) formatiert ist.
9 ist ein Diagramm zur Darstellung eines exemplarischen Abschnittes eines formatierten Wissensgraphen.
10 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens von <S, P, O>-Tripeln für eine Schlüsselwortsuche und einen Vorschlagsindex.
11 ist ein Flussdiagramm zur Darstellung einer exemplarischen NLP-Pipeline.
12 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines serialisierten Wissensgraphen mit Kommentaren.
13 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens eines Hauptvorschlagsvorausschauindex.
14 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Generierens von Gewichtungen für feldgewichtete Suchergebnisse.
15 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses des Präsentierens einer Antwortkarte gegenüber einem Nutzer auf einer Ausgabevorrichtung.
16A ist ein Diagramm zur Darstellung einer exemplarischen „Wie man“-Antwortkarte in einem JSON-Format.
16B ist ein Diagramm zur Darstellung einer exemplarischen „Was ist“-Antwortkarte in einem JSON-Format.
17 ist ein Diagramm zur Darstellung eines exemplarischen Verfahrens der Durchführung der verbesserten Technik.

Detailbeschreibung
Der vorbeschriebene herkömmliche Suchassistent ist als Hilfeassistent für bestimmte Produkte und Dienstleistungen schlecht geeignet. Ein typischer Suchassistent benötigt beispielsweise gegebenenfalls Tausende oder Zehntausende von eigens vorgesehenen Servern, die bei einer großen Menge von Nutzern Suchstrings sammeln und zusammenstellen. Eine derart große Anzahl von Servern kann im Betrieb derart kostenaufwändig sein, dass die Kosten jenseits der Möglichkeiten der meisten Dienstanbieter liegen. In vielen Fällen kann die Anzahl von möglichen Suchstrings, die die in das Textkästchen eingetippten Worte enthalten, zudem groß sein, wobei nur wenige oder gar keine der Suchstrings relevant sind. Auch dann, wenn ein Suchstring relevant ist, ist wahrscheinlich, dass die Suchergebnisse auf Grundlage jenes Suchstrings nicht auf die Frage eingehen, die der Nutzer im Sinn hatte.
Man betrachte als Beispiel ein Szenario, bei dem ein Nutzer rote Augen aus einem Digitalfoto entfernen möchte, der Nutzer den Begriff „rote Augen“ jedoch nicht kennt. Vielmehr tippt der Nutzer das Nachfolgende in einen Suchassistent ein: „Wie entferne ich Teufelsaugen?“. Ist diese unübliche Art, die Anfrage auszudrücken, vorher niemals so formuliert worden, so findet der Suchassistent gegebenenfalls einen den eingetippten Zeichen nahen Treffer wie beispielsweise „Wie entferne ich böse Augen?“. In diesem Fall stellt der Suchassistent gegebenenfalls Links zu astrologischen und religiösen Webseiten bereit, die „das böse Auge“ erwähnen, von denen dem Nutzer jedoch keine weiterhilft.
Entsprechend den hier beschriebenen Implementierungen und im Gegensatz zu dem vorbeschriebenen herkömmlichen Suchassistent, der in gewissem Umfang eine Serverinfrastruktur benötigt, die für die meisten Unternehmen zu viel ist und die beim Beantworten von Fragen im Sinne der Nutzer häufig versagt, impliziert eine verbesserte Technik ein Ausgeben von genauen Suchstrings, wenn die von dem Nutzer eingetippte Frage keine Worte enthält, die in der Zusammenstellung von Suchstrings vorhanden sind. Insbesondere beinhaltet die verbesserte Technik ein Generieren von Links zu spezifischem Content in einer Sammlung von Dokumenten in Reaktion auf eine Nutzerstringanfrage, wobei die Links auf Grundlage eines Antwortvorschlagsvorausschauindex generiert werden. Der Antwortvorschlagsvorausschauindex verweist auf eine Abbildung zwischen einer Gruppe von semantisch äquivalenten Begriffen und einem jeweiligen Link zu spezifischem Content der Sammlung von Dokumenten. Bei einem exemplarischen Szenario empfängt ein Computer einen Satz von Hilfedokumenten, die ein Produkt oder eine Produktfamilie betreffen. Jedes Hilfedokument beinhaltet ein Thema und das Thema betreffenden Content. Der Computer generiert den Antwortvorschlagsvorausschauindex auf Grundlage des Satzes von Hilfedokumenten. In Reaktion auf das Empfangen einer Nutzeranfrage generiert der Computer einen Link zu spezifischem Content in dem Satz von Hilfedokumenten. Bei einigen Implementierungen kann der Computer auch eine Antwortkarte, die dem Link entspricht, ausgeben, wobei die Antwortkarte ein Fenster ist, das auf einer Ausgabevorrichtung angezeigt wird und in dem die Anfrage des Nutzers beantwortender Content gezeigt ist.
Vorteilhafterweise muss ein Nutzer seine Anfrage in Bezug auf den Antwortvorschlagsvorausschauindex nicht genau formulieren. Während der vorbeschriebene herkömmliche Suchassistent, der das Nachschlagen auf Grundlage von von dem Nutzer eingetippten Worten durchführt, sehr wahrscheinlich Links zu Content ausgibt, der mit der Absicht des Nutzers nichts zu tun hat, verarbeitet die verbesserte Technik den eingegebenen Suchstring unter Nutzung von Verarbeitung natürlicher Sprache. Entsprechend ist sehr wahrscheinlich, dass ein Hilfesystem auf Grundlage der vorbeschriebenen Abbildung ein einziges Ergebnis, beispielsweise einen Link zu einem Dokument in der Sammlung oder zu einem Ort innerhalb eines Dokumentes, erzeugt, der die Frage des Nutzers genau beantwortet. Ein derartiges Hilfesystem lernt verbreitete synonyme Begriffe, ohne dass es Milliarden von Anfragen durchsehen müsste, und kann Antworten auf Grundlage der Frageabsicht anstatt auf Grundlage wörtlicher Schlüsselwörter, wie dies bei der Verarbeitung durch herkömmliche Suchassistenten der Fall ist, automatisch vorschlagen. Das Hilfesystem kann zudem genaue Antworten im kompakten Format einer Antwortkarte bereitstellen, wodurch die Notwendigkeit für Nutzer entfällt, Ergebnisdokumente zu durchstöbern, wodurch wiederum der Rückgriff auf eine umfangreiche und kostenintensive Suchinfrastruktur entfällt und der Nutzer ein verlässlicheres Suchergebnis erhält. Das Hilfesystem, das auch als „semantische Vorausschau“ (semantic lookahead) bekannt ist, kann zudem dynamisch einen Link generieren, während der Nutzer seine Anfrage eintippt, wodurch ermöglicht wird, dass der Nutzer ein relevantes Suchergebnis schneller als bei Systemen erhält, die Suchergebnisse erst dann ausgeben, wenn die vollständige Eingabe vorliegt.
Um die vorbeschriebenen Merkmale zu verwirklichen, generiert das System zunächst ein semantisches Dokumentobjektmodell (DOM) für jede Contentpage, um thematische Beziehungen und Beschreibungen zu erfassen. Das System erstellt sodann einen Wissensgraphen aus dem zusammengestellten DOM und nutzt vorgefundene Eltern-Kind-Themenbeziehungen, „Wie man“-Prozeduren und verwandte Themen innerhalb der DOM-Struktur. Das System bedient sich einer hochgradig nützlichen Themenstruktur und Domäneninformation während des Dokumentverstehprozesses, bevor es einen Faktenwissensgraphen für die endgültige Frage/Antwort erstellt.
Des Weiteren kann auf Dokumentationen für stark nachgefragte Produkte proprietärer Natur (beispielsweise Dokumentationen für sensiblen regierungstechnischen, pharmazeutischen und wissenschaftlichen Content oder die Rechtsanwendung) seitens großer öffentlicher Suchmaschinen nicht zugegriffen werden. Bei einer derartigen Dokumentation ist die Fähigkeit erwünscht, ein intelligentes Frageantwortsystem lokal und gänzlich innerhalb eines einzigen Unternehmens oder in einer Umgebung kooperierender Unternehmen einzusetzen. Die verbesserten Techniken, die eine Sammlung von Dokumenten als Eingabe aufnehmen, stellen diese Fähigkeit in besonderem Maße bereit.
Ein weiteres vorteilhaftes Merkmal des vorbeschriebenen Systems ist ein Prozess des automatischen Lernens von Antwortindexierungsgewichtungen aus exemplarischen Frage/Antwort-Paaren unter Nutzung von Techniken maschinellen Lernens und einer optimierenden argmax()-Funktion. Diese Antwortindexierungsgewichtungen bilden dahingehend das Rückgrat des vorbeschriebenen semantischen Vorausschauhilfesystems, dass verschiedene Teile einer Nutzereingabe (beispielsweise Subjekt, Prädikat, Titel) hinsichtlich ihrer Wichtigkeit mit Blick auf das Lokalisieren semantischer Äquivalente zu jenen Teilen der Nutzereingabe in dem Wissensgraphen gewichtet werden. Dies ermöglicht, dass das System genaue Antwortvorschläge schnell generiert, indem es Produkthilfesuchanfrageprotokolle von einem kleineren, zweckbestimmten Publikum nutzt. Die Antwortindexierungsgewichtungen unterscheiden sich vollständig von Techniken, die bei herkömmlichen Suchassistenten genutzt werden. So verfügen herkömmliche Suchassistenten nicht über die Fähigkeit der semantischen Vorausschau, wie sie hier beschrieben wird. Vielmehr wird eine beliebige „Vorausschau“, die von den herkömmlichen Suchassistenten vorgenommen wird, im Kontext des Auffindens genauer Entsprechungen zwischen Worten in einem Eingabestring und Worten in einer Suchdatenbank benutzt.
Zusammengefasst bedeutet dies, dass die hier beschriebenen verbesserten Techniken schnelle und genaue Suchergebnisse auf Grundlage einer ungenauen Nutzereingabe liefern. Diese Suchergebnisse werden aufgebaut, indem auf Grundlage einer Indexierung von Content in einer Sammlung von Dokumenten, das heißt semantischer Vorausschaudaten, ein Wissensgraph erstellt wird. Das Indexieren des Contents kann durch ein geeignetes Gewichten verschiedener Teile eines Suchstrings, wie vorstehend beschrieben worden ist, durchgeführt werden, und ist zur in Echtzeit erfolgenden Ausgabe von Suchergebnissen, während der Nutzer tippt, geeignet. Dies ist eine semantische Vorausschau für einen Nutzereingabestring. Der auf diese Weise erstellte Wissensgraph beinhaltet Paare aus semantisch äquivalenten Begriffen und Links zu Content in der Sammlung von Dokumenten. Auf diese Weise kann ein Nutzer einen Suchstring ungenau formulieren und dennoch relevante Suchergebnisse erhalten, während der Suchstring eingegeben wird.
Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraphen darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht.
Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Generieren der semantischen Kommentardaten, die jeweilige semantische Kommentare zu dem Thema und Satz von Unterthemen eines jeden der Sammlung von Dokumenten darstellen, wobei jeder der semantischen Kommentare ein jeweiliges Prädikat eines Satzes von Prädikaten und ein jeweiliges Objekt eines Satzes von Objekten beinhaltet; ein für jedes von dem Satz von Prädikaten erfolgendes Identifizieren wenigstens eines Objektes des Satzes von Objekten, das, wenn es mit jenem Prädikat kombiniert wird, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht; und ein für jedes von dem Satz von Objekten erfolgendes Identifizieren wenigstens eines Prädikates des Satzes von Prädikaten, die, wenn sie mit jenem Objekt kombiniert werden, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entsprechen.
Bei einigen Implementierungen beinhaltet das Generieren der Themenwissensgraphdaten für jedes aus der Sammlung von Dokumenten ein Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jenem Dokument entspricht, wobei das DOM jenem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content jenes Dokumentes beinhalten; und ein Durchführen einer Zusammenstellungsoperation an dem Satz von DOMen zum Erzeugen einer Hauptlinkliste für den Themenwissensgraphen, wobei die Hauptlinkliste mehrere eindeutige Links zu Content der Sammlung von Dokumenten beinhaltet.
Bei einigen Implementierungen beinhaltet das Generieren der Themenwissensgraphdaten ein für jedes der Sammlung von Dokumenten erfolgendes Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jenem Dokument entspricht, wobei das DOM jenem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content jenes Dokumentes beinhaltet; und ein Durchführen einer Wissensgraphformatierungsoperation an dem Satz von DOMen zum Erzeugen eines zusammengestellten abgeflachten Wissensgraphen, der für eine NLP-Pipeline (Verarbeitung natürlicher Sprache NLP) formatiert ist, wobei der zusammengestellte abgeflachte Wissensgraph jedes von dem Thema und Satz von Unterthemen eines jeden des Satzes von DOMen beinhaltet, wobei die NLP-Pipeline dafür konfiguriert ist, <S, P, O>-Tripel zu erzeugen, die aus Subjekt, Prädikat und Objekt für jedes von dem Thema und Satz von Unterthemen eines jeden des Satzes von DOMen besteht.
Bei einigen Implementierungen beinhaltet das Generieren der Themenwissensgraphdaten ein Durchführen einer Unterteilungsoperation an dem zusammengestellten abgeflachten Wissensgraphen zum Erzeugen von mehreren dem zusammengestellten abgeflachten Wissensgraphen zu eigenen Teilen bzw. von mehreren zusammengestellten abgeflachten Wissensgraphteilen; und ein Durchführen einer NLP-Operation durch die NP-Pipeline an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen zum Erzeugen des Wissensgraphen, wobei die NLP-Operation an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen parallel durchgeführt wird.
Bei einigen Implementierungen beinhaltet das Generieren des DOM des Satzes von DOMen ein Durchführen einer Auffindungsoperation an jedem der Sammlung von Dokumenten zum Identifizieren von nichtinformativem Content jenes Dokumentes; und ein Durchführen einer Entfernungsoperation an dem nichtinformativen Content jenes Dokumentes zum Erzeugen des Themas, des Satzes von Unterthemen und der Links zu dem Content jenes Dokumentes, wobei die Entfernungsoperation einen TF-IDF-Algorithmus (Term Frequency Inverse Document Frequency TF-IDF), der an jenem Dokument angewendet wird, beinhaltet.
Bei einigen Implementierungen beinhaltet das Generieren des DOM des Satzes von DOMen ein Durchführen einer Neuformatierungsoperation an jedem der Sammlung von Dokumenten zum Erzeugen des Dokumentes, das in einer Markdown-Markup-Sprache (MDML) formatiert ist.
Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Beziehen von Suchanfrageprotokolldaten, wobei die Suchanfrageprotokolldaten eine Abbildung zwischen Nutzeranfragedaten und Links zu Content der Sammlung von Dokumenten darstellen, wobei die Nutzeranfragedaten mehrere Nutzeranfragen darstellen; und ein Durchführen einer Textauswertungsoperation an den Suchanfrageprotokolldaten zum Erzeugen eines Satzes von gängigen Nutzeranfragen für eines von einem Thema oder einem jeweiligen Unterthema eines Satzes von Unterthemen eines Dokumentes der Sammlung von Dokumenten, wobei jedes von dem Thema und dem Satz von Unterthemen mit einem jeweiligen Link entsprechendem jeweiligem Content verknüpft ist.
Bei einigen Implementierungen beinhaltet das Generieren der Antwortvorschlagsvorausschauindexdaten ein Bilden von Paaren aus (i) einer jeweiligen Nutzeranfrage des Satzes von gängigen Nutzeranfragen und (ii) einem jeweiligen Link zu Content der Sammlung von Dokumenten, wobei jedes Paar auf kommentierten Themen und Sätzen von Unterthemen des Themenwissensgraphen beruht, wobei die kommentierten Themen und Sätze von Unterthemen Thementitel und <S, P, O>-Tripel beinhalten, die aus Subjekt, Prädikat und Objekt für jedes von den Themen und Sätzen von Unterthemen bestehen. Bei derartigen Implementierungen beinhaltet das Erzeugen des Links zu spezifischem Content in der Sammlung von Dokumenten ein Identifizieren eines Paares aus einer Nutzeranfrage und einem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt.
Bei einigen Implementierungen beinhaltet das Bilden der Paare aus Nutzeranfrage und Link zu dem Content ein Generieren einer jeweiligen Gewichtung, die jedem von einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht. Bei derartigen Implementierungen beinhaltet das Identifizieren des Paares aus der Nutzeranfrage und dem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt, ein Generieren einer Linearkombination aus dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content unter Nutzung der jeweiligen Gewichtung entsprechend jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content des Satzes von gängigen Nutzeranfragen, die am besten zu derselben Linearkombination aus einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Nutzeranfragestring passt.
Bei einigen Implementierungen beinhaltet das Generieren der jeweiligen Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht, ein Generieren einer Matrix, die mehrere Reihen aufweist, wobei jede der mehreren Reihen Elemente aufweist, die gleich einer jeweiligen Gewichtung des Thementitels, des Subjektes, des Prädikates und des textartigen Contents sind; ein für jedes der Paare aus Nutzeranfrage und Link zu dem Content des Satzes von gängigen Nutzeranfragen erfolgendes Bilden einer Merit-Funktion, die als Argumente (i) eine Suchfunktion der Nutzeranfragedaten, die Links zu Content der Sammlung von Dokumenten und eine Reihe der Matrix und (ii) einen bestimmten Link zu Content der Sammlung von Dokumenten nimmt, wobei die Suchfunktion einen Link als Ausgabe ausgibt, wobei die Merit-Funktion in Reaktion darauf, dass die Linkausgabe der Suchfunktion gleich dem bestimmten Link ist, einen Wert von 1 aufweist, und in Reaktion darauf, dass die Linkausgabe der Suchfunktion nicht gleich dem bestimmten Link ist, einen Wert von 0 aufweist; und ein Identifizieren der Reihe der Matrix, die bewirkt, dass die Merit-Funktion einen Maximalwert annimmt, als diejenige Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entspricht.
Bei einigen Implementierungen beinhaltet das Beziehen der Suchanfrageprotokolldaten ein Durchführen einer Operation maschinellen Lernens an rohen Suchanfragedaten zum Erzeugen der Abbildung zwischen den Nutzeranfragedaten und den Links zu Content der Sammlung von Dokumenten.
Bei einigen Implementierungen beinhaltet der Wissensgraph des Weiteren für ein Thema Links zu Content, der anderen Themen entspricht.
Bei einigen Implementierungen beinhaltet der Satz von Links einen einzigen Link. Bei derartigen Implementierungen beinhaltet das Ausgeben des Satzes von Links an die Ausgabevorrichtung ein Anzeigen einer Antwortkarte, die dem einzigen Link entspricht, wobei die Antwortkarte ein Fenster beinhaltet, in dem der Content, der dem Link entspricht, enthalten ist.
Bei einigen Implementierungen beinhaltet das Erzeugen des Links zu bestimmtem Content in der Sammlung von Dokumenten ein Lokalisieren von Content, der Text beinhaltet, der einen Schritt eines Prozesses angibt; und ein Identifizieren des Themas, dem der Content entspricht.
1 ist ein Diagramm zur Darstellung einer exemplarischen elektronischen Umgebung 100, in der die vorbeschriebenen verbesserten Techniken implementiert sein können. Wie in 1 gezeigt ist, beinhaltet die elektronische Umgebung 100 einen Computer 120 und eine Anzeige 190, die von einem Nutzer 192 betrachtet wird.
Der Computer 120 ist dafür konfiguriert, nutzerspezifizierte Zeichnungen auf einer Anzeigevorrichtung anzuzeigen. Der Computer 120 beinhaltet eine Netzwerkschnittstelle 122, eine oder mehrere Verarbeitungseinheiten 124, einen Speicher 126 und eine Anzeigeschnittstelle 128. Die Netzwerkschnittstelle 122 beinhaltet beispielsweise Ethernet-Adapter, Token-Ring-Adapter und dergleichen, um elektronische und/oder optische Signale, die aus einem Netzwerk empfangen werden, in elektronische Form zur Verwendung durch den bearbeitenden Computer 120 umzuwandeln. Der Satz von Verbeitungseinheiten 124 beinhaltet einen oder mehrere Verarbeitungschips und/oder Baugruppen. Der Speicher 126 beinhaltet sowohl einen flüchtigen Speicher (beispielsweise einen RAM) wie auch einen nichtflüchtigen Speicher, beispielsweise einen oder mehrere ROMs, Plattenlaufwerke, Solid-State-Laufwerke und dergleichen. Der Satz der Verarbeitungseinheiten 124 und der Speicher 126 bilden zusammen Steuer- bzw. Regelschaltkreise, die dafür konfiguriert und angeordnet sind, verschiedene Verfahren und Funktionen, die hier beschrieben werden, auszuführen.
Bei einigen Ausführungsformen können eine oder mehrere der Komponenten des Computers 120 Prozessoren (beispielsweise Verarbeitungseinheiten 124) sein oder diese beinhalten, die dafür konfiguriert sind, Anweisungen zu verarbeiten, die in dem Speicher 126 gespeichert sind. Beispiele für derartige in 1 dargestellte Anweisungen beinhalten einen Dokumentsammlungserwerbsverwalter 130, einen Wissensgraphgenerierungsverwalter 140, einen Suchanfrageprotokollerwerbsverwalter 150, einen Antwortvorschlagsvorausschauindexverwalter 160, einen Nutzeranfrageerwerbsverwalter 170, einen Antwortkartenpräsentationsverwalter 180 und einen Anzeigeverwalter 182. Des Weiteren ist, wie in 1 dargestellt ist, der Speicher 126 dafür konfiguriert, verschiedene Daten zu speichern, was im Zusammenhang mit den jeweiligen Verwaltern, die diese Daten nutzen, noch beschrieben wird.
Der Dokumentsammlungserwerbsverwalter 130 ist dafür konfiguriert, Dokumentdaten 132 zu beziehen, die eine Sammlung von Dokumenten darstellen, die Content beinhalten, der einem Nutzer, der Zugriff auf die Sammlung von Dokumenten hat, präsentiert werden kann. Bei einigen Implementierungen bezieht der Dokumentsammlungserwerbsverwalter 130 die Dokumentdaten 132 über eine Netzwerkverbindung unter Nutzung der Netzwerkschnittstelle 122. Bei einigen Implementierungen bezieht der Dokumentsammlungserwerbsverwalter 130 die Dokumentdaten 132 über Speichermedien (beispielsweise ein Plattenlaufwerk, ein Flash-Laufwerk und dergleichen mehr).
Die Dokumentdaten 132 stellen die Sammlung von Dokumenten dar, die in Reaktion auf eine Suchanfrage durchsucht werden sollen. Bei einigen Implementierungen beinhaltet die Sammlung von Dokumenten eine Hilfedokumentation für ein Produkt oder eine Familie von Produkten. Bei einigen Implementierungen beinhaltet die Sammlung von Dokumenten Dokumente, die ein privates Intranet für ein Unternehmen bilden. Die Dokumentdaten 132 beinhalten Themendaten 134, Contentdaten 138 und Linkdaten 139. Bei einigen Implementierungen beinhalten die Dokumentdaten 132 Unterthemendaten 136.
Die Themendaten 134 stellen Thementitel dar. Jedes Dokument der Sammlung von Dokumenten beinhaltet einen Thementitel, der einen Gegenstand, der in jenem Dokument offenbart ist, und den Thementitel betreffenden Content angibt.
Die Unterthemendaten 136 stellen einen Satz von Unterthementiteln eines jeden des Satzes von Dokumenten dar. Jedes des Satzes von Unterthemen eines Dokumentes betrifft das Thema des Dokumentes. Darüber hinaus betrifft ein Teil des Contents des Dokumentes ein jeweiliges Unterthema des Satzes von Unterthemen des Dokumentes.
Die Contentdaten 138 stellen verschiedenen Content dar, der in jedem der Sammlung von Dokumenten beinhaltet ist und das Thema, das von den Themendaten 134 dargestellt wird, und den Satz von Unterthemen, die von den Unterthemendaten 136 dargestellt werden, betrifft. Bei einigen Implementierungen beinhaltet der Content textartige Beschreibungen. Bei einigen Implementierungen beinhaltet der Content andere Medien, so beispielsweise grafische Medien, Videomedien, Audiomedien und dergleichen.
Die Linkdaten 139 stellen Links zu dem Content dar, auf den von einem Browser oder einer Suchmaschine entsprechend den hier beschriebenen verbesserten Techniken zugegriffen werden kann. Bei einigen Implementierungen beinhalten die Links eine URL-Adresse (Uniform Resource Locator URL), an der ein Dokument gespeichert ist (beispielsweise ein Webserver, der nicht unbedingt der Computer 120 ist). Bei einigen Implementierungen beinhalten die Links zudem einen Anker, der einen Ort innerhalb des Dokumentes angibt, an dem von Interesse seiender Content, der ein Unterthema betrifft, lokalisiert ist.
Der Wissensgraphgenerierungsverwalter 140 ist dafür konfiguriert, Wissensgraphdaten 142 auf Grundlage der Dokumentdaten 132 zu generieren. Der Betrieb des Wissensgraphgenerierungsverwalters 140 wird detailliert anhand 4 bis 12 beschrieben.
Die Wissensgraphdaten 142 stellen einen Wissensgraphen dar. Der Wissensgraph ist eine hierarchische Anordnung von Thema, Unterthemen und Links, die ebenfalls Information über semantischen Content des textartigen Contents der Sammlung von Dokumenten und deren Beziehung zu den Links, durch die auf den Content zugegriffen werden kann, beinhaltet. Die Wissensgraphdaten 142 beinhalten semantische Kommentardaten 144 und zusammengestellte Linkdaten 146.
Die semantischen Kommentardaten 144 stellen grammatikalische Teile des Themas und der Unterthementitel und des textartigen Contents dar, die durch Verarbeitung natürlicher Sprache (NLP) extrahiert werden. NLP kann beispielsweise ein Subjekt, ein Prädikat und ein Objekt (ein <S, P, O>-Tripel) aus einem Thementitel extrahieren. Bei einem spezifischen Beispiel werde der Thementitel „Nutze den Text über das Formungswerkzeug“ betrachtet. Das Prädikat kann „Nutze“ sein, während das Objekt „Text“ oder „Text über das Formungswerkzeug“ sein kann. Als Subjekt kann, da es aufgrund der Formulierung im Imperativ nicht explizit auftritt, „Du/Sie“ oder „Nutzer“ hergeleitet werden. Der Wissensgraphgenerierungsverwalter 140 ist dafür konfiguriert, die Ausgabe einer NLP als semantische Kommentardatei zur Verweisung durch die Suchmaschine anzuordnen.
Die zusammengestellten Linkdaten 146 stellen alle Links zu Themen und Unterthemen in der Sammlung von Dokumenten (das heißt die Dokumentdaten 132) dar. Der Wissensgraphgenerierungsverwalter 140 ist dafür konfiguriert, diese Links zu extrahieren und zusammenzustellen, Doppelungen zu beseitigen und ein Indexierungsschema zu generieren, durch das auf die Links in dem Wissensgraph verwiesen wird.
Der Suchanfrageprotokollerwerbsverwalter 150 ist dafür konfiguriert, Suchanfrageprotokolldaten 152 zu beziehen. Bei einigen Implementierungen bezieht der Suchanfrageprotokollerwerbsverwalter 150 die Suchanfrageprotokolldaten 152 über eine Netzwerkverbindung unter Nutzung der Netzwerkschnittstelle 122. Bei einigen Implementierungen bezieht der Suchanfrageprotokollerwerbsverwalter 150 die Suchanfrageprotokolldaten 152 über Speichermedien (beispielsweise ein Plattenlaufwerk, ein Flash-Laufwerk und dergleichen mehr).
Die Suchanfrageprotokolldaten 152 stellen ein Suchanfrageprotokoll dar, das von Nutzern generiert wird, die die Sammlung von Dokumenten durchsuchen. Einige Nutzer geben beispielsweise eine Anfrage ein, und es wird in Reaktion hierauf ein Link, der von einer Suchmaschine angeboten wird, angeklickt. Einige Nutzer finden in Reaktion hierauf gegebenenfalls keinen hilfreichen Link und unternehmen etwas anderes, versuchen also beispielsweise eine andere Anfrage oder klicken überhaupt keinen Link an. Die Suchanfrageprotokolldaten 152 beinhalten Anfragedaten 154 und Linkdaten 156.
Die Anfragedaten 154 stellen Anfragen dar, die von zahlreichen Nutzern bei Versuchen eingegeben worden sind, Content in der Sammlung von Dokumenten finden. Bei einigen Implementierungen nehmen die Anfragedaten 154 die Form eines Strings von Zeichen an, der in diskreten Worten ausgedrückt ist, wie es bei einer Suchanfrage üblich ist. Der Suchanfrageprotokollerwerbsverwalter 150 sammelt Anfragen, die von Nutzern in die Suchmaschine eingegeben worden sind, und speichert sie in einem zentralen Protokoll. Bei einigen Implementierungen formatiert der Suchanfrageprotokollerwerbsverwalter 150 die gesammelten Anfragen für eine Verarbeitung natürlicher Sprache, um semantische Information, so beispielsweise <S, P, O>-Tripel, aus den Anfragen zu extrahieren. Das Speichern der Anfragen in einer derartigen semantischen Form stellt eine Verbindung zwischen den Anfragen und dem Wissensgraphen her.
Die Linkdaten 156 stellen Links dar, die in Reaktion auf eine Anfrage ausgewählt werden. Die Links beinhalten eine URL, die einen Ort (beispielsweise auf einem Remote-Webserver) angibt, an dem die Dokumente gespeichert sind. Jeder Link entspricht einem Thema, das den Content eines Dokumentes definiert. Bei einigen Implementierungen beinhalten die Links Anker, die Orten von Unterthemen in den Dokumenten entsprechen. Ein Anker kann beispielsweise durch ein „#“-Symbol markiert sein, auf das Zeichen in dem Unterthema nach einer URL in einem Link folgen.
Der Antwortvorschlagsvorausschauindexverwalter 160 ist dafür konfiguriert, Antwortvorschlagsvorausschauindexdaten 162 auf Grundlage der Wissensgraphdaten 142 und der Suchanfrageprotokolldaten 152 zu erzeugen. Die Antwortvorschlagsvorausschauindexdaten 162 stellen einen Antwortvorschlagsvorausschauindex dar, der für einen Nutzer einen Link oder einen Satz von Links zu Content der Sammlung von Dokumenten in Reaktion auf eine von dem Nutzer eingegebene Anfrage bereitstellt. Da die Wissensgraphdaten 142 und die Suchanfrageprotokolldaten 152 semantische Kommentare (beispielsweise <S, P, O>-Tripel) aufweisen, müssen die Nutzeranfragen keine Schlüsselwörter in den Thementiteln oder dem verknüpften Content beinhalten. Vielmehr stellen die Antwortvorschlagsvorausschauindexdaten 162 Themen und Unterthemen bereit, die mit der Anfrageeingabe semantisch verwandt sind. Die Antwortvorschlagsvorausschauindexdaten 162 beinhalten semantisch äquivalente Begriffsdaten 164.
Die semantisch äquivalenten Begriffsdaten 164 stellen Wendungen dar, von denen man herausgefunden hat, dass sie dahingehend semantisch äquivalent sind, dass sie bekanntermaßen mit denselben Links verknüpft sind. Die Wendungen „Entferne ein rotes Auge“, „Filtere Reflexionen aus Augen in Bildern“ und „Beseitige rote Augen“ können alle mit dem Link zu dem Thema „Wie man rote Augen aus Fotos entfernt“ verknüpft werden. Jede der Wendungen wie auch das Thema weisen semantische Kommentare auf, die in Bezug auf die semantischen Kommentare des Thementitels analysiert worden sind. Durch Analysieren des semantischen Contents neuer Eingabeanfragen wie beispielsweise „Wie entferne ich die Teufelsaugen?“ ist der Antwortvorschlagsvorausschauindexverwalter 160 dazu in der Lage, dem Nutzer den Link auch dann anzuzeigen, wenn die Anfrage Worte enthält, die nicht in demselben Suchanfrageprotokoll beinhaltet sind.
Der Nutzeranfrageerwerbsverwalter 170 ist dafür konfiguriert, Nutzeranfragedaten 172 zu beziehen, die Nutzeranfragen von einer Suchmaschine darstellen. Bei einigen Implementierungen ist der Nutzeranfrageerwerbsverwalter 170 dafür konfiguriert, semantischen Content (beispielsweise <S, P, O>-Tripel) aus Nutzeranfragen zu extrahieren.
Der Antwortkartenpräsentationsverwalter 180 ist dafür konfiguriert, Content in einer Antwortkarte in Reaktion darauf anzuzeigen, dass nur ein einziger Link vorhanden ist, der in Reaktion auf eine Anfrage präsentiert wird, oder der Nutzer einen Link aus mehreren präsentierten Links auswählt. Die Antwortkarte ist ein Fenster, das speziell zum Präsentieren von derartigem Content konfiguriert ist. Bei einigen Implementierungen können die Antwortkarten verschiedene Formen aufweisen, die davon abhängen, ob das verknüpfte Thema ein „Wie man“-Thema oder ein „Was ist“-Thema ist.
Der Anzeigeverwalter 182 ist dafür konfiguriert, Content - bei einigen Implementierungen innerhalb einer Antwortkarte - an die Anzeigevorrichtung 190 zu senden.
Die Komponenten (beispielsweise Module, Verarbeitungseinheiten 124) des Computers 120 können dafür konfiguriert sein, auf Grundlage einer oder mehrerer Plattformen (beispielsweise einer oder mehrerer ähnlicher oder verschiedener Plattformen) betrieben zu werden, die einen oder mehrere Typen von Hardware, Software, Firmware, Betriebssystemen, Laufzeitbibliotheken und/oder dergleichen mehr beinhalten können. Bei einigen Implementierungen können die Komponenten des Computers 120 dafür konfiguriert sein, innerhalb eines Clusters von Vorrichtungen (beispielsweise innerhalb einer Serverfarm) betrieben zu werden. Bei einer derartigen Implementierung können die Funktionalität und die Verarbeitung der Komponenten des Computers 120 auf verschiedene Vorrichtungen des Clusters von Vorrichtungen verteilt sein.
Die Komponenten des Computers 120 können ein beliebiger Typ von Hardware und/oder Software, die zum Verarbeiten von Attributen konfiguriert sind, sein oder diese beinhalten. Bei einigen Implementierungen können ein oder mehrere Teil der Komponenten, die bei den Komponenten des Computers 120 in 1 gezeigt sind, ein hardwarebasiertes Modul (beispielsweise ein digitaler Signalprozessor (DSP), ein feldprogrammierbares Gate-Array (FPGA), ein Speicher), ein Firmwaremodul und/oder ein softwarebasiertes Modul (beispielsweise ein Modul aus Computercode, ein Satz von computerlesbaren Anweisungen, die auf einem Computer ausgeführt werden können) sein oder diese beinhalten. Bei einigen Implementierungen können ein oder mehrere Teile der Komponenten des Computers 120 beispielsweise ein Softwaremodul, das zur Ausführung durch wenigstens einen Prozessor (nicht gezeigt) konfiguriert ist, sein oder dieses beinhalten. Bei einigen Implementierungen kann die Funktionalität der Komponenten in verschiedenen Modulen und/oder anderen Komponenten als den in 1 gezeigten beinhaltet sein.
Bei einigen Ausführungsformen können eine oder mehrere der Komponenten des Computers 120 Prozessoren, die zum Verarbeiten von in einem Speicher gespeicherten Anweisungen konfiguriert sind, sein oder diese beinhalten. Ein Dokumentsammlungserwerbsverwalter 130 (und/oder ein Teil hiervon), ein Wissensgraphgenerierungsverwalter 140 (und/oder ein Teil hiervon), ein Suchanfrageprotokollerwerbsverwalter 150 (und/oder ein Teil hiervon), ein Antwortvorschlagsvorausschauindexverwalter 160 (und/oder ein Teil hiervon), ein Nutzeranfrageerwerbsverwalter 170 (und/oder ein Teil hiervon), ein Antwortkartenpräsentationsverwalter 180 (und/oder ein Teil hiervon) und ein Anzeigeverwalter 182 (und/oder ein Teil hiervon) können beispielsweise eine Kombination aus einem Prozessor und einem Speicher sein, die dafür konfiguriert sind, Anweisungen im Zusammenhang mit einem Prozess zum Implementieren einer oder mehrerer Funktionen auszuführen.
Bei einigen Implementierungen kann der Speicher 126 ein beliebiger Typ von Speicher sein, so beispielsweise ein Speicher mit wahlfreiem Zugriff, ein Plattenlaufwerkspeicher, ein Flash-Speicher und/oder dergleichen mehr. Bei einigen Implementierungen kann der Speicher 126 als mehr als eine Speicherkomponente (beispielsweise als mehr als eine RAM-Komponente oder ein Plattenlaufwerkspeicher), die mit den Komponenten des bearbeitenden Computers 120 verknüpft sind, implementiert sein. Bei einigen Implementierungen kann der Speicher 126 ein Datenbankspeicher sein. Bei einigen Implementierungen kann der Speicher 126 ein nichtlokaler Speicher sein oder diesen beinhalten. Der Speicher 126 kann beispielsweise ein Speicher, der von mehreren Vorrichtungen (nicht gezeigt) geteilt bzw. gemeinsam genutzt wird, sein oder diese beinhalten. Bei einigen Implementierungen kann der Speicher 126 mit einer Servervorrichtung (nicht gezeigt) innerhalb eines Netzwerkes verknüpft und dafür konfiguriert sein, Komponenten des bearbeitenden Computers 120 zu dienen. Wie in 1 dargestellt ist, ist der Speicher 126 dafür konfiguriert, verschiedene Daten zu speichern, darunter die Dokumentdaten 132, die Wissensgraphdaten 142, die Suchanfrageprotokolldaten 152, die semantisch äquivalenten Begriffsdaten 162 und die Nutzeranfragedaten 172.
2 ist ein Flussdiagramm zur Darstellung eines exemplarischen Prozesses 200 des Erstellens eines semantischen Vorausschauindex für Anfragen nach Content in einer Sammlung von Dokumenten. Der Prozess 200 wird für eine Sammlung von Hilfedokumenten in einem Hilfesystem beschrieben. Der Prozess 200 kann jedoch bei einer beliebigen Sammlung von Dokumenten, so beispielsweise in einem Unternehmensintranet, angewendet werden. Der Prozess 200 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 202 bezieht der Dokumentsammlungserwerbsverwalter 130 eine Sammlung von Hilfedokumenten.
Bei 204 nimmt der Wissensgraphgenerierungsverwalter 124 ein Crawling, ein Filtern und ein Kommentieren der Hilfedokumente vor, um eine Sammlung von Dokumenten zu erzeugen, die in einer Markdown-Markup-Sprache (MDML) formatiert sind und aus denen irrelevanter Text ausgefiltert ist. Weitere Details zur Filterung und Kommentierung der Hilfedokumente werden nachstehend detailliert anhand 4 beschrieben.
Bei 206 generiert der Wissensgraphgenerierungsverwalter 140 ein Dokumentobjektmodell (DOM) für jedes Hilfedokument der Sammlung von Dokumenten. Wie anhand 5 und 6 beschrieben worden ist, ist das DOM für ein Dokument eine Sammlung von Themen, Unterthemen und Links zu dem Content, der mit den Themen und Unterthemen verknüpft ist.
Bei 208 generiert der Wissensgraphgenerierungsverwalter 140 einen Wissensgraph für jedes Hilfedokument, das heißt entsprechend einem Thema aus einem DOM für das Dokument, das mit dem Thema verknüpft ist. Wie im Zusammenhang mit 7 beschrieben wird, verweist der Wissensgraph auf einen zusammengestellten Index von Links zu Content in dem Dokument, das mit dem Thema verknüpft ist, wie auch auf Content selbst und Links zu anderen Themen, die dieselbe Verknüpfung mit dem Thema aufweisen können.
Bei 210 bildet der Wissensgraphgenerierungsverwalter 140 einen serialisierten Wissensgraphen für die Sammlung von Hilfedokumenten. Der serialisierte Wissensgraph ist für eine Eingabe in eine NLP-Pipeline formatiert.
Bei 212 unterteilt der Wissensgraphgenerierungsverwalter 140 den serialisierten Wissensgraphen in mehrere Dateien zur Eingabe in die NLP-Pipeline. Die NLP-Pipeline kann sodann eine Verarbeitung natürlicher Sprache an jeder der Unterteilungen parallel durchführen.
Bei 214 führt die NLP-Pipeline eine Abbildungs-/Verringerungs-Operation (MAP/REDUCE) an jeder Unterteilung durch, um <S, P, O>-Tripel für jeden Satz in der Unterteilung zu erzeugen.
Bei 216 führt der Wissensgraphgenerierungsverwalter 140 die <S, P, O>-Tripel in dem serialisierten Wissensgraphen zusammen. Durch das Zusammenführen wird eine semantische Kommentardatei mit dem serialisierten Wissensgraphen derart verlinkt, dass jeder Satz mit seinem Tripel verknüpft ist.
Bei 218 generiert der Antwortvorschlagsvorausschauverwalter 160 semantische Vorausschauvorschläge auf Grundlage des serialisierten Wissensgraphen mit den semantischen Kommentaren.
Bei 220 setzt der Antwortvorschlagsvorausschauverwalter 160 Wissensgraphthemenantworten für semantische Vorausschauvorschläge ein.
Bei 222 generiert der Antwortvorschlagsvorausschauverwalter 160 Gewichtungen für eine elastische Suchtextfeldindexierung. Die Gewichtungen werden derart berechnet, dass die Wahrscheinlichkeit maximiert wird, dass eine Nutzeranfrage zu einem Link und/oder einer Antwortkarte führt, der/die auf die Absicht der Anfrage genau eingeht.
3 ist ein Diagramm zur Darstellung eines exemplarischen Hilfedokumentes 202, das als Teil eines Antwortvorschlagsvorausschauindex verarbeitet werden soll. Das Hilfedokument 202, das in 3 dargestellt ist, weist einen Thementitel 310 („ADD TEXT“ bzw. „Text hinzufügen“) auf, der den Content in dem Dokument definiert. Der Thementitel 310 weist in diesem Fall ein einfaches Prädikat („add“ bzw. „hinzufügen“) und ein einfaches Objekt („text“ bzw. „Text“) auf und beschreibt ein Merkmal oder eine Familie von Merkmalen in einem Softwarewerkzeug. Das Dokument 202 beschreibt ein „Wie man“-Hilfeszenario.
Unter dem Thementitel 310 ist textartiger Content 312 vorhanden, der dem Thementitel 310 entspricht. Der textartige Content 312 beinhaltet Sätze, die das Merkmal oder den Satz von Merkmalen beinhalten. Diese Sätze wie auch der Thementitel 310 werden für eine NLP-Pipeline derart neuformatiert und von dieser derart verarbeitet, dass die semantische Struktur des Themas 310 und des Contents 312 auf eine gemeinsame Plattform, beispielsweise auf <S, P, O>-Tripel, normiert werden kann.
Unter dem Content 312 ist ein Unterthementitel 320 befindlich, der „About Text“ bzw. „Über den Text“ lautet. Der Unterthementitel 320 steht mit dem Thementitel 310 im Zusammenhang und kann unter Nutzung eines Ankers, beispielsweise eines „#“, verlinkt sein, auf den Zeichen folgen, die den Ort in dem Dokument 202, an dem der Unterthementitel platziert ist, identifizieren. Zudem ist ein textartiger Content 322 vorhanden, der dem Unterthementitel 320 entspricht. Der textartige Content 322 beinhaltet wie der textartige Content 312 Sätze, die für eine NLP-Pipeline derart neuformatiert und von dieser derart verarbeitet werden, dass die semantische Struktur des Themas 310 und des Contents 312 auf eine gemeinsame Plattform, so beispielsweise auf <S, P, O>-Tripel, normiert werden kann.
Das Dokument 202 verfügt zudem über einen weiteren Unterthementitel („Add Text“ bzw. „Text hinzufügen“) und einen textartigen Content 332, der jenem Unterthementitel entspricht. In diesem Fall beinhaltet der textartige Content 332 aufgelistete Schritte in einem „Wie man“-Prozess. Eine NLP-Pipeline-Verarbeitungsoperation kann die Sätze als Schritte identifizieren und eine Antwortkarte formatieren, die diesen Text entsprechend beinhaltet.
4 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 204 des Erstellens einer semantischen Kommentardatei aus einer Sammlung von Hilfedokumenten. Die semantische Kommentardatei 412 wird dafür benutzt, ein Thema, ein Unterthema und Linkinformation für einen semantischen Vorausschauindex zu extrahieren, die beim Identifizieren und Präsentieren von Antwortkarten in Reaktion auf eine Nutzeranfrage benutzt werden. Der Prozess 204 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 404 führt der Wissensgraphgenerierungsverwalter 140 eine Crawling-Operation an jedem der Sammlung von Dokumenten 202 durch, um ein Textkorpus zu identifizieren, das gegebenenfalls in einem Wissensgraphen organisiert werden soll.
Bei 406 führt der Wissensgraphgenerierungsverwalter 140 eine Neuformatierungsoperation an jedem der Sammlung von Dokumenten in einer Markdown-Markup-Sprache (MDML) durch, um eine Sammlung von formatierten Dokumenten zu erzeugen. MDML ist eine Lightweight-Markup-Sprache, die von Menschen lesbar ist und in eine Standard-Markup-Sprache, so beispielsweise XHTML oder Rich Text Format (RTF), umgewandelt werden kann.
Bei 408 führt der Wissensgraphgenerierungsverwalter 140 eine Auffindungsoperation an dem extrahierten Textkorpus eines jeden der Sammlung von formatierten Dokumenten durch, um nichtinformativen Content in jenem Dokument zu identifizieren. Um dies zu bewerkstelligen, erwirbt (beispielsweise lernt) der Wissensgraphgenerierungsverwalter 140 ein Modell zum Ausfiltern von derartigem Content. Beispiele für derartige Sprache beinhalten die Sprache von Haftungsausschlüssen und Kontaktinformationen.
Bei 410 führt der Wissensgraphgenerierungsverwalter 140 eine Operation des Ausfilterns oder Entfernens an dem identifizierten nichtinformativen Content eines jeden der Sammlung von formatierten Dokumenten durch. Bei einigen Implementierungen ist ein Modell zum Ausfiltern von derartigem Content aus dem Textkorpus ein TF-IDF-Algorithmus (Term Frequency Inverse Document Frequency). Bei einigen Implementierungen berechnet der Wissensgraphgenerierungsverwalter 140 eine inverse Dokumenthäufigkeit (IDF) des Textkorpus: $idf (t, D) = log \frac{N}{| {d \in D : t \in d} |'}$
Hierbei ist t ein Kandidatenrauschterm (beispielsweise ein N-Gramm wie beispielsweise „Kontakt mit der Kundenhilfe der Firma aufnehmen“), und N = |D| ist die Gesamtzahl von Dokumenten der Sammlung von Dokumenten. Der Nennerterm |{d ∈ D: t ∈ d}| ist eine Anzahl von Dokumenten, wo der Kandidatenrauschterm, das heißt eine Begriffshäufigkeit ungleich 0, auftritt.
Der Filterungsprozess beinhaltet sodann das Folgende: (i) Sammeln und Sortieren von M Kandidatenrauschtermen unter Nutzung des vorstehend angegebenen Ausdrucks für idf(t, D); (ii) Generalisieren von Termen durch reguläre Ausdrücke für verschiedene Teile, so beispielsweise ((TERM₁|TERM₂|...|TERM_i|...|TERM_N)+[]*)\[[0-9]+\]; (iii) Sammeln von Begriffsmustern in der Rauschbegriffsstoppliste; und (iv) Anwenden der aufgetretenen Begriffe aus zerlegten Dokumenten der Sammlung von Dokumenten und, so vorhanden, Entfernen des Begriffsmusters aus dem Kommentar.
Bei 412 führt der Wissensgraphgenerierungsverwalter 140 eine Zerlegungsoperation an jedem eines jeden der Sammlung von formatierten Dokumenten durch, um Thementitel, Unterthemen, textartige Beschreibungen und Links zu identifizieren. Die Zerlegungsoperation erzeugt eine semantische Kommentardatei 414, die die identifizierten Thementitel, Unterthemen, textartigen Beschreibungen und Links zur Verweisung durch einen semantischen Vorschlagsvorausschauindex organisiert. Bei einigen Implementierungen nutzt der Wissensgraphgenerierungsverwalter 140 eine Beautiful-Soup-Package, um einen Zerlegungsbaum (parsing tree) zum Identifizieren der Thementitel, Unterthemen, textartigen Beschreibungen und Links zu erzeugen.
5 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 206 des Erstellens eines Satzes von Dokumentobjektmodellen (DOMen) aus der semantischen Kommentardatei 414. Jedes DOM beinhaltet das der obersten Ebene zu eigene Thema (top-level topic) und ein verknüpftes Unterthema. Der Prozess 206 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 502 identifiziert der Wissensgraphgenerierungsverwalter 140 die Themen und Unterthemen der semantischen Kommentardatei 414, die mit jedem der Sammlung von Dokumenten 202 verknüpft sind.
Bei 504 ordnet der Wissensgraphgenerierungsverwalter 140 das identifizierte Thema und die identifizierten Unterthemen aus jedem der Sammlung von Dokumenten 202 in einem DOM 506 an. Das DOM entspricht einem Dokument der Sammlung von Dokumenten 202 mit einer hierarchischen Organisation von Thema und Unterthemen. Bei einigen Implementierungen wird das DOM 506 in einem rekursiven JSON-Format dargestellt.
6 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 208 des Erstellens einer Sammlung von Dokumentwissensgraphen (Knowledge Graphs KGs bzw. KGen) aus jedem DOM entsprechend einem jeweiligen Dokument der Sammlung von Dokumenten. Jeder Dokument-KG beinhaltet Linkkennungen, die Links zu Content in jedem der Sammlung von Dokumenten identifizieren. Der Prozess 208 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 602 stellt der Wissensgraphgenerierungsverwalter 140 die Links, die in der semantischen Kommentardatei 414 identifiziert sind, zusammen und indexiert sie. Beim Zusammenstellen der Links identifiziert der Wissensgraphgenerierungsverwalter 144 redundante (das heißt nicht eindeutige) Links und entfernt sie aus einer Hauptverweisliste von Links. Aus dieser Hauptliste generiert der Wissensgraphgenerierungsverwalter 140 einen gemeinsamen Index der Links aus der Hauptverweisliste.
Bei 604 generiert der Wissensgraphgenerierungsverwalter 140 Verlinkungen zwischen Themen. Auf diese Weise kann der KG, der einem Thema entspricht, das wiederum einem Dokument entspricht, eine Liste von Links zu anderen Themen bereitstellen. Auf diese Weise erzeugt der Wissensgraphgenerierungsverwalter 140 einen Dokument-KG 606 aus jedem DOM unter Nutzung des Index von Links.
7 ist ein Diagramm zur Darstellung eines exemplarischen DOM 506 in einem JSON-Format. Wie in 7 gezeigt ist, listet das DOM den Thementitel 702 („Add Text“ bzw. „Text hinzufügen“) am oberen Ende der Hierarchie auf. Weiter unten in der Hierarchie sind die Unterthemen 704, so beispielsweise „About Text“ bzw. „Über den Text“, „Add Text“ bzw. „Text hinzufügen“, „Use the Text on Shape Tool“ bzw. „Nutze den Text über das Formungswerkzeug“ und dergleichen mehr. Auf derselben hierarchischen Ebene wie das Unterthema 704 ist eine textartige Beschreibung 706 des Themas (die dem textartigen Content 312 in 3 entspricht) befindlich.
In jedem Unterthema 704 beinhaltet ist ein Linkverweis 708, beispielsweise „1585“ mit dem Unterthema „About Text“ bzw. „Über den Text“ und dergleichen mehr. Jeder Linkverweis 708 ist dem gemeinsamen Index der Links entnommen und entspricht einem Link, der das Unterthema erzeugt.
Die textartigen Beschreibungen der Unterthemen sind bei 710 („About text“ bzw. „Über den Text“) und bei 712 („Add Text“ bzw. „Text hinzufügen“) gezeigt. Jede Reihe der textartigen Beschreibung entspricht einem Schritt bei dem Prozess, der in dem entsprechenden Dokument der Sammlung von Dokumenten 202 beschrieben ist. Einige der Reihen der textartigen Beschreibungen beinhalten zudem Linkverweise (beispielsweise „633“ in Zeile [0] der dem Unterthema 710 zu eigenen textartigen Beschreibung). Diese Linkverweise entsprechen tatsächlichen Links in dem jeweiligen Dokument der Sammlung von Dokumenten 202.
Es ist ein „Siehe auch“-Eintrag („See also“) 714 bezüglich anderer Themen vorhanden. Bei Erweiterung des Eintrages 714 sind Links zu anderen Themen und Unterthemen in anderen Dokumenten der Sammlung von Dokumenten 202 zu sehen. Bei 716 ist zudem eine Auflistung globaler Links zu anderem Content zu sehen, der nicht in der Sammlung von Dokumenten 202 beinhaltet ist.
8 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 210 des Erstellens eines formatierten KG zur Verarbeitung natürlicher Sprache (NLP). Der Prozess 210 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 802 führt der Wissensgraphgenerierungsverwalter 140 eine Zusammenstellungsoperation an den KGen für jedes Dokument der Sammlung von Dokumenten 202 durch, um einen abgeflachten KG 806 zu erzeugen. Der abgeflachte oder serialisierte KG 806 liegt in einem Format vor, das zur Weiterleitung an eine NLP-Pipeline geeignet ist. Eine derartige NLP-Pipeline zerlegt jede textartige Themenbeschreibung (beispielsweise die textartige Beschreibung 706) und führt sodann ein semantisches Identifizieren und Extrahieren (beispielsweise ein <S, P, O>-Generieren) aus der textartigen Beschreibung durch.
Bei 804 zeichnet der Wissensgraphgenerierungsverwalter 104 sämtliche Linkverweise und die entsprechenden Links (das heißt URLs und Linkanker) auf. Dieses Aufzeichnen ermöglicht, dass die von einem Nutzer empfangenen Suchergebnisse den Nutzer direkt zum relevanten Content in einem Dokument der Sammlung von Dokumenten 202 mitnehmen. Bei einigen Implementierungen werden die Verweise und Links in einem JSON-Format aufgezeichnet.
9 ist ein Diagramm zur Darstellung eines Teiles 900 eines exemplarischen abgeflachten KG 806, wie er anhand 8 beschrieben worden ist. Dieser Teil kann mit dem DOM 506 in einem JSON-Format, wie in 7 gezeigt ist, verglichen werden. Wie in 9 gezeigt ist, listet der abgeflachte KG 806 jeden Thementitel, jedes Unterthema und jede textartige Beschreibung jeweils in einer eigenen Zeile auf. Jede Zeile weist eine Verweiszahl 902 anstelle einer hierarchischen Anordnung in einem JSON-Format auf.
Der abgeflachte KG 806 weist zudem Indikatoren 904 auf, die angeben, ob eine Zeile in dem abgeflachten KG 806 vom Typ „Topix“, „Doctx“, „Triples“ oder „Index“ ist. Der Typ „Topix“ verweist auf Zeilen, die mit dem Thementitel verknüpft sind. „Doctx“ verweist auf Zeilen, die mit textartigem Content verknüpft sind. „Triples“ verweist auf Zeilen, die mit textartigem Content verknüpft sind, der nach semantischem Content zerlegt wird. „Index“ verweist auf Zeilen, die mit Unterthemen verknüpft sind.
Der abgeflachte KG 806 weist zudem hierarchaische DOM-Pfade 906 auf, die einer DOM-Struktur eines Dokumentes der Sammlung von Dokumenten 202 und Linkverweisen 908 entsprechen.
10 ist ein Diagramm zur Darstellung von Details des Prozesses 212 des Durchführens einer semantischen Analyse an dem formatierten KG 806. Der Prozess 212 kann von Softwareobjekten durchgeführt werden, die in 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 1002 führt eine NLP-Pipeline (beispielsweise Adobe SedonaNLP) eine MAP/REDUCE-Unterteilungsoperation an dem formatierten KG 806 zum Unterteilen in N separate Dateien durch, wobei N die Anzahl der Prozessorkerne ist, auf denen die semantische Analyse durchgeführt wird. Bei einigen Implementierungen nimmt N einen Wert von wenigstens 8 an. Bei einigen Implementierungen ist N wenigstens gleich 16. Bei einigen Implementierungen ist N gleich 52. Eine derartige Unterteilung ist von Vorteil, da die Sammlung von Dokumenten 202 mehrere Hundert Dokumente aufweisen kann, wobei jedes Dokument etwa zehn bis zwanzig Unterthemen, Beschreibungen und Detailanweisungen beinhaltet. Der formatierte KG 806 kann mehrere Hunderttausend Themen, Unterthemen, Beschreibungen und Anweisungen, die zerlegt und kommentiert werden, beinhalten.
Bei 1004 (das heißt bei 214 in 2) führt die NLP-Pipeline semantische Analysen an jeder der N separaten Dateien parallel durch. Eine derartige Analyse impliziert ein Generieren eines MAP/REDUCE-Scripts, das jede der N separaten Dateien einer jeweiligen MAP-Prozessinstanz zur parallelen Ausführung zuweist. Das Ausführen des MAP/REDUCE-Scripts in den MAP-Prozessinstanzen erzeugt N abgebildete Dateien. Die N abgebildeten Dateien werden sodann in jeweilige REDUCE-Prozessinstanzen - bei einigen Implementierungen nach einem Sortierprozess durch Schlüssel, die in den MAP-Prozessinstanzen generiert werden - eingegeben, um Schlüsselwort-, Wendungs- und Verb/Objekt-<S, P, O>-Begriffe aus dem abgeflachten KG 806 zur endgültigen Schlüsselwortsuche und Vorschlagsindexierung zu erstellen.
Bei 1006 sammelt die NLP-Pipeline alle NLP-Kommentare (beispielsweise die <S, P, O>-Begriffe) für jedes Thema und Unterthema in einer Schlüsselwortsuche und einem Vorschlagsindex 1008. Die NLP-Kommentare werden durch Kennungen (IDs) für jedes Thema und verknüpfte Unterthemen für jedes Dokument der Sammlung von Dokumenten 202 identifiziert. Bei einigen Implementierungen sind die Typen der NLP-Kommentare die folgenden:

• exprType == Die Kennung (ID) gibt ein Themenelement in dem KG an. Die Elemente sind die folgenden:
• exprPOS - das getaggte Part-Of-Speech-Element des Ausdrucks eines Satzes oder einer Wendung
• exprRole - ein Indikator dafür, ob das expr-Element ein Subjekt, ein Prädikat (beispielsweise ein Verb oder eine Präposition) oder ein Objekt ist
• exprType - ein Kommentar, der angibt, ob das Element ein Ausdruck mit einem Nomen (NX), einem Verb (VX), einer Präposition (IN) oder einem Adjektiv (AX) ist.

Alle Themen und Unterthemen in der kompletten Sammlung von Dokumenten 202 werden sodann in einem Hauptdokumentindex zusammengestellt.
11 ist ein Flussdiagramm zur Darstellung eines exemplarischen NLP-Pipelineprozesses 1100. Der Prozess 1100 kam von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die bei einigen Implementierungen in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Der Textcontent 1102 (beispielsweise ein Satz) stellt einen Eingabetext bereit, der zunächst durch ein Textumwandlungsmodul 1104 auf UTF-8 normiert wird und sodann von einem Sektionssegmentierer 1106, einem Absatzsegmentierer 1108, einem Satzsegmentierer 1100 und einem Worttokenisierer 1112 in syntaktische Spracheinheiten segmentiert und tokenisiert wird. Eine Stoppwortfilterung (stopword filtering) 1114 und ein Stemming (stemming) 1116 werden angewendet, um ein strukturiertes Modell der Eingabetextcontentelemente 1118 zu generieren. Das Textmodell 1118 wird sodann durch den Textmodellindex 1120 indexiert und an einen oder mehrere NLP-Analyseabläufe (NLP analysis flows) gesendet. Bei einigen Implementierungen beinhalten die Abläufe (flows) einen N-Gramm-Extraktor 1126, einen N-Gramm-Klassifizierer 1128, einen Themenextraktor 1130, einen Themenklassifizierer und einen N-Gramm-Persistor bzw. N-Gramm-Fortsetzer 1134. Bei einigen Implementierungen beinhalten die Abläufe einen Part-of-Speech-Treebank-Trigger 136, einen <S, P, O>-Tripel-Extraktor 1138, einen Grammatikumwandler (grammar transformer)1140, eine Tripeldatenbank 1142, einen Benennungsentitätsextraktor (named entity extractor) 1144, ein oberes/unteres Ontologiemodul 1146, einen Entitätsklassifizierer 1148 und einen für linguistische Kommentare gegebenen Persistor bzw. Fortsetzer (linguistic annotations persister) 1150.
Bei einigen Implementierungen werden die letztgenannten Abläufe (das heißt 1136 bis 1150) dafür benutzt, bei 1136 die Worte eines jeden Thementitels und einer jeden Beschreibung (beispielsweise unter Nutzung der Penn-Treebank) mit Part-of-Speech-Tags zu kommentieren, woraufhin die semantischen <Subjekt, Prädikat, Objekt>-Tripel aus dem kommentierten Text unter Nutzung von 1138 extrahiert werden, während das Tagging aller aufgefundenen Nominalbegriffe unter Nutzung externer Wortlexikonontologien, so beispielsweise WordNet und geläufigen Ontologien 1144 und 1146, durchgeführt wird. Die getaggten Verb-, Nomen- und Adjektivbegriffe werden von dem Entitätsklassifizierer 1148 klassifiziert und kommentiert, um ihre lexikalische Rolle für das spezifische Thema oder Unterthema anzugeben, woraufhin die gesamte Kommentarausgabe in JSON-LD-Form dargestellt und bei 1150 zur nachfolgenden Verarbeitung gespeichert wird.
12 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 216 des Generierens eines serialisierten KG mit Kommentaren 1206. Der Prozess 216 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.
Bei 1202 nutzt der Wissensgraphgenerierungsverwalter 140 die <S, P, O>-Tripel für die Schlüsselwortsuche und den Vorschlagsindex 1008, um eine serialisierte Datei mit <S, P, O>-Tripel-Kommentaren in einem JSON-Format zu generieren. Da jede unterteilte Datei, die bei 1002 (10) generiert worden ist, von einem separaten NLP-MAP-Prozess verarbeitet wird, werden alle <S, P, O>-Ergebniskommentare in den generierten JSON-Dateien, die bei 1150 (11) gespeichert worden sind, bei einigen Implementierungen in eine endgültige zusammengestellte KG-Kommentardatei rückkombiniert, um den <S, P, O>-Index zu generieren. Er hierdurch wird dem Nutzer ermöglicht,

• alle verbalen Handlungen (beispielsweise Erstellen, Bearbeiten, Löschen) aufzufinden, die auf ein einzelnes Objekt (beispielsweise ein Bild, eine Maske) angewendet werden, oder
• für eine einzige verbale Handlung (beispielsweise Aktualisieren) alle relevanten Objekte aufzufinden, auf die dieses Verb angewendet werden kann (beispielsweise Farbkurven, Farbton und Sättigung, Farbe des Hauttons).

Die generierten Themen-<S, P, O>-Kommentare aus der NLP-MAP/REDUCE-Verarbeitungsphase werden im JSON-Format dargestellt. Nicht aufgelöste Elternsektionen und ihre entsprechenden Verweis-ID-Anker werden aufgelöst. Exemplarische NLP- und Prädikats-, Objektkommentare für das Unterthema „Define path for spin blur“ bzw. „Pfad für Drehunschärfe definieren“ lauten folgendermaßen:

 {„exprPOS“: „PhotoshopElementsID-0029_03-[1746]-[1746]/_SDN.id“,
       "exprRole": false,
       "exprType": „ID“
     },
     {„exprPOS“: „Define/VB“,
       "exprRole": „PRED-vx-1“,
       "exprType": „VX“
     },
     {
       "exprPOS": „path/NN“,
       "exprRole": „OBJC-nx-1“,
       "exprType": „NX“
     }, 



     {„exprPOS“: „for/IN“,
       "exprRole": „OBJC-in-1“,
       "exprType": „IN“
     },
     {
       "exprPOS": „spin/NN blur/NN“,
       "exprRole": „OBJC-nx-2“,
       "exprType": „NX“
     }

Bei 1204 fügt der Wissensgraphgenerierungsverwalter 140 diese <S, P, O>-Kommentare zu dem serialisierten KG 806 hinzu, um einen serialisierten KG 1206 mit Kommentaren zu erzeugen. Diese <S, P, O>-Kommentare erzeugen, insgesamt betrachtet, Viele-zu-Eins-Beziehungen zur Erstellung der Verb-zu-Nomen-Suchergebnisse. Ein exemplarischer Suchvorgang zum Auffinden aller verbalen Befehle (beispielsweise „in X Erscheinen“ bzw. „appear in“, „zwischen X umwandeln“ bzw. „convert between“, „Erstellen“ bzw. „create“ und dergleichen mehr) für ein spezifisches nominales Objekt (beispielsweise „einen Pfad“) lautet folgendermaßen, wobei die kursive Wendung das Thema ist, das dem jeweiligen Suchergebnis entspricht:

Feld der Pfade (paths panel) <= in X erscheinen - Zeichenmodi
Pfade <= zwischen X umwandeln - siehe auch
Pfad zur Auswahl <= umwandeln - Formen und Pfade verstehen
Pfade zu Auswahlgrenzen <= umwandeln - siehe auch
Pfad <= Typ längsläufig oder innen erstellen - Typ entlang oder innerhalb eines Pfades erstellen
Pfad <= Definieren - Drehunschärfe
Pfad <= Duplizieren - panorama ocr.png erstellen
Pfade <= Bearbeiten - Tutorials Photography Jumpstart
Pfad <= Füllen oder Strich machen - Formen und Pfade verstehen
Pfad <= Herausfinden, wie man längsläufigen Typ erstellt - Tutorials Photography Jumpstart
Pfade <= Lernen, wie man umwandelt - Tutorials Photography Jumpstart
Pfade <= Lernen, wie man bearbeitet oder anpasst - Tutorials Photography Jumpstart
Pfad <= Bewegen - panorama ocr.png erstellen

Der Suchvorgang ermöglicht auf ähnliche Weise, dass die Nutzer alle Produkt-Nomen-Objekte (beispielsweise „perspektivische Ebenen“ bzw. „perspective planes“, „zusätzliche Datensätze“ bzw. „additional data sets“, „Randbedingungen“ bzw. „constraints“) auffinden, die ein verbaler befehl (beispielsweise „Definieren“ bzw. „Define“) auf die Nutzung von Eins-zu-Viele-Beziehungen für Verb-zu-Nomen anwenden kann. Dies ist nachstehend gezeigt, wobei die kursiven Wendungen das Thema sind, das dem jeweiligen Suchergebnis entspricht:

Definieren und Anpassen => perspektivische Ebenen - perspektivische Ebenen im Fluchtpunkt definieren und anpassen
Definieren => zusätzliche Datensätze - einen Datensatz definieren
Definieren => Randbedingungen zur Angabe gerader Linien - panorama ocr.png erstellen
Definieren => Datensatz - einen Datensatz definieren
Definieren => ausgefranster Rand - Ränder der Auswahlen weichmachen
Definieren => vier Eckknoten der ebenen Oberfläche - panorama ocr.png erstellen
Definieren => Horizontlinie - Tutorials Photography Jumpset
Definieren => Pfad - Drehunschärfe
Definieren => Ebenen - Perspektive anpassen
Definieren => Punktgrößeneinheit - Typgröße spezifizieren
Definieren => spezifischer RGB - über Farbprofile
Definieren => Variablen - einen Datensatz importieren
Definieren => Variablen - Variablen definieren

13 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 218 des Generierens eines Hauptindexvorschlagsvorausschauindex 1310 aus dem serialisierten KG 1206 mit Kommentaren. Der Prozess 218 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.

Bei 1302 führt der Antwortvorschlagsvorausschauindexverwalter 160 eine Textauswertungsoperation an einem Suchanfrageprotokoll (beispielsweise an den Suchanfrageprotokolldaten 152 in 1) durch, um gängige Suchfragen zu identifizieren. Bei einigen Implementierungen beruht die Textauswertungsoperation auf einer Frage- oder Schlüsselworthäufigkeit in dem Suchwortprotokoll. Die gängigen Fragen werden dafür benutzt, neues Nutzervokabular, das in einem Suchsystem oder der Sammlung von Dokumenten 202 unbekannt ist, aufzufinden und zu extrahieren. Unter Nutzung dieser Technik werden Fragen wie beispielsweise „Wie entferne ich Teufelsaugen?“, wo „Teufelsaugen“ ein unbekannter Begriff ist, ohne Weiteres aufgefunden und können auf äquivalente Fragen über das Werkzeug zur „Entfernung roter Augen“ abgebildet werden.

Bei 1304 nutzt der Antwortvorschlagsvorausschauindexverwalter 160 den serialisierten KG 1206 zum Identifizieren und Bilden von (Antwort, Link)-Paaren.

Bei 1306 nutzt der Antwortvorschlagsvorausschauindexverwalter 160 gängige Suchfragen als Kandidatenbegriffe, die mit zugrunde liegenden Worten in Antwortvorschlägen verknüpft werden sollen. Bei einigen Implementierungen kann diese Nutzung mit der Sammlung von Dokumenten 202 und neu erlerntem Vokabular für Themen, Titel und/oder Sätze bewerkstelligt werden.

Bei 1308 kuratiert (curate) der Antwortvorschlagsvorausschauindexverwalter 160 Abbildungen von Kandidatenbegriffen auf Formaldokumentworte, um den Hauptindexvorschlagsvorausschauindex 1310 zu erzeugen. Die Kandidatenbegriffe werden von der Textauswertung aufgefunden. Bei einigen Implementierungen kann das Kuratieren von einem Contentbearbeiter bzw. Contenteditor durchgeführt werden. Das Kuratieren kann ermöglichen, dass die neuen Vokabularabbildungen Prüfungen (reviews) sind und zur Überwachung hinzugefügt werden.

Ein Prozess des automatischen Abbildens von Kandidatenvokabularbegriffen, die aus dem Nutzersuchprotokoll erlernt werden, kann dadurch bewerkstelligt werden, dass das Volumen bzw. der Umfang der Anfragesuchprotokolldaten vergrößert wird, wo eine Textauswertung erfolgt und wo sodann eine Begriffsanzahlschwelle statistisch bestimmt wird, um zu entscheiden, wann neue Begriffe angenommen werden sollen, die mit den formell zugrunde liegenden Begriffen über das Dokument der Sammlung von Dokumenten 202 entsprechend einem bestimmten Thema verknüpft werden sollen.

Für den automatischen Erwerb neuer Vokabularbegriffe, die von einem Kunden benutzt werden, wird ein Satz von Anfrageprotokolleintragspaaren, die aus (Anfrage, Begriff, Link)-Paaren bestehen, verarbeitet und geclustert, um äquivalente Formulierungen oder Schlüsselbegriffe für jedes Thema oder Unterthema des Dokumentes der Sammlung von Dokumenten 202 entsprechend der bestimmten Themenseite zu bestimmen. Aufgefundene Formulierungen oder Kandidatenbegriffe, deren Auftretenszahl über der probenbasierten Schwelle ist, werden sodann ausgewählt und in den Wissensgraphthemen, Unterthemen, <S, P, 0>-Tripel-Kommentierungen und im Beschreibungsindex aufgenommen.

Wie in 2 gezeigt ist, verwendet bei 220 der Antwortvorschlagsvorausschauverwalter 160 Wissensgraphthemenantworten für semantische Vorausschauvorschläge. Diese Verwendung sendet Antworten an einen Frontend-Browser oder einen Mobiltelefonclient. Dieser Prozess ermöglicht, dass der Frage-Antwort-Vorschlagsvorausschauverwalter 160, so dies gewünscht ist, unabhängig von einem Backend-Suchsystem arbeitet. Der generierte Antwortvorschlagsvorausschauindex 1310 unterstützt einen generalisierten Konzeptabgleich und nicht nur einen strengen Schlüsselwortabgleich, wie dies bestehende Suchsysteme oder Open-Source-Vorausschaumodule tun.

14 ist ein Flussdiagramm zur Darstellung von Details des Prozesses 222 des Generierens von optimalen Gewichtungen 1410 für feldgewichtete Suchergebnisse aus Suchanfrageprotokollen 1402. Der Prozess 222 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.

Bei 1404 generiert der Antwortvorschlagsvorausschauverwalter 160 eine Matrix ω, die allen möglichen Kombinationen von Gewichtungen für vier Typen von Dokumenttextelementen entspricht, um die Feldebenenindexierung (field level indexing) während der Suche auszunutzen, nämlich für Themen, Objekte, Prädikate und textartige Beschreibungen. Ein Grund für die Gewichtungen liegt darin, dass die Dokumenttextelemente, die vorstehend identifiziert worden sind, variierende Wichtigkeit aufweisen. Die Gewichtungen werden zur Indexierungs- und Anfrageverarbeitung genutzt. Die Auswahl der Gewichtungen wird unter Nutzung von Frage/Antwort-Paaren auf Grundlage der tatsächlichen (Anfrage, Link)-Paare durchgeführt. Bei einigen Implementierungen werden derartige Paare durch ein Produktdokumentationsqualitätsteam erstellt. Bei einigen Implementierungen sind derartige Paare in den Adobe-Suchprotokollen vorzufinden. Diese Paare werden genutzt, um Indexfeldgewichtungen für die Suchmaschine während der Anfrageverarbeitung zu bestimmen, wodurch die Antwort- oder Suchergebnisrelevanz wesentlich verbessert wird.

Entsprechend weist die Matrix ω vier Spalten und M⁴ Reihen auf, wobei M die Anzahl der Proben zwischen 0 und 1 für jede Gewichtung ist. Gilt beispielsweise M = 3, so nimmt die Matrix ω die nachfolgende Form an:

ω = (\begin{matrix} 0,0 & 0,0 & 0,0 & 0,0 \\ 0,0 & 0,0 & 0,0 & 0,5 \\ 0,0 & 0,0 & 0,0 & 1,0 \\ 0,0 & 0,0 & 0,5 & 0,0 \\ 0,0 & 0,0 & 0,5 & 0,5 \\ 0,0 & 0,0 & 0,5 & 1,0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 1,0 & 1,0 & 1,0 & 0,5 \\ 1,0 & 1,0 & 1,0 & 1,0 \end{matrix})

Jede Spalte der Matrix ω entspricht einem jeweiligen Dokumenttextelement, nämlich der Thementitelfeldgewichtung ω_topic, einer <S, P, O>-Prädikatfeldgewichtung ω_predicate, einer <S, P, O>-Objektfeldgewichtung ω_object und einer Thementextfeldgewichtung ω_text.

Bei 1406 bildet der Antwortvorschlagsvorausschauverwalter 160 eine Merit-Funktion auf Grundlage dessen, ob eine Suchfunktionsausgabe, die die Gewichtungen aus einer Reihe der Matrix ω nutzt, eine korrekte Ground-Truth-Anfrage erzeugt. Die Ground Truths sind ein Satz von Paaren (Anfrage q_i, Link L_GTi), die von Menschen kuratiert werden, und die als perfekter Standard („Goldstandard“) bekannt sind. Dies bedeutet dass die Ground Truths einen Satz von Links darstellen, der von einem Nutzer ausgewählt wird, nachdem der Nutzer eine Anfrage in eine Suchmaschine eingegeben hat. In Reaktion auf die Anfrage q_i = „Bildunterschrift zu Bild hinzufügen“ bzw. „add caption to image“ wählt der Nutzer beispielsweise den Link L_GTi = https://helpx.adobe.com/photoshop-elements/using/add-text.html aus.

Eine Suchfunktion einer Suchmaschine, die die vorstehend definierten Gewichtungen berücksichtigt, kann folgendermaßen definiert werden:

f_{search} (q_{i}, ω_{j}) = (\begin{matrix} L_{1} & S_{1} \\ L_{2} & S_{2} \\ ⋮ & ⋮ \\ L_{m} & S_{m} \end{matrix})

Hierbei sind S_k mit k ∈ {1,2, ..., m} Kennwerte, die den Links L_k entsprechen, die von der Suchmaschine ausgegeben werden. Dies bedeutet, dass die Suchmaschine die obersten m Links entsprechend den Kennwerten auf Grundlage der benutzten Gewichtungen ausgibt.

Von Interesse ist die Bestimmung dessen, welche Gewichtungen die korrektesten Ground-Truth-Anfragen ausgeben. Bei einigen Implementierungen kann eine derartige Bestimmung unter Nutzung der nachfolgenden Merit-Funktion vorgenommen werden:

ω' = \underset{j}{argmax} \sum_{i = 1}^{K} eval (f_{search} (q_{i}, ω_{j}), L_{GT i})

Hierbei sind K die Ground Truths, und es gilt:

eval (f_{search} (q_{i}, ω_{j}), L_{GT i}) = {\begin{matrix} 1, & L_{k} = L_{GT i} \\ 0, & ansonsten \end{matrix}

L_k stellt hierbei einen Link dar, der von der Funktion f_search ausgegeben wird

Bei 1408 nutzt der Antwortvorschlagsvorausschauverwalter 160 die Merit-Funktion, um die Reihe 1410 der Matrix zu identifizieren, die die Anzahl von Ground-Truth-Anfragen maximiert. ω' stellt daher die Werte der vier Gewichtungen dar, die die Anzahl von Ground-Truth-Anfragen maximieren. Bei einigen Implementierungen hat man herausgefunden, dass derartige Gewichtungswerte gleich (ω_topic, ω_predicate, ω_object, ω_text) = (0,44, 0,22, 0,22, 0,11) sein können.

Die vorstehenden Erläuterungen stellen darauf ab, den Antwortvorschlagsvorausschauindex und die Suchmaschine zu bilden, die eine Antwort auf eine Nutzeranfrage auf Grundlage der Absicht des Nutzers bereitstellt. Dennoch ist ein Frontend der Suchmaschine vorhanden, das Anfragen als Eingabe annimmt und bei einigen Implementierungen Antwortkarten bereitstellt, die die Antwort für die von dem Nutzer beabsichtigte Nutzeranfrage direkt bereitstellen.

15 ist ein Flussdiagramm zur Darstellung von Details eines Prozesses 1500 des Präsentierens von Antwortkarten gegenüber einem Nutzer in Reaktion auf eine Nutzeranfrage. Der Prozess 1500 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.

Bei 1502 generiert der Antwortkartenpräsentationsverwalter 180 „Wie man“- und „was ist“-Antwortkarten als JSON-formatierte Dateien. Jede Antwortkarte basiert auf einer textartigen Beschreibung, die einem Thema oder Unterthema eines Dokumentes der Sammlung von Dokumenten 202 entspricht. Die Antwortkarten werden anhand 16A und 16B detaillierter beschrieben.

Bei 1504 definiert der Antwortkartenpräsentationsverwalter 180 eine Heuristik, um Hilfeanweisungsschritte zu identifizieren. Eine Heuristik impliziert beispielsweise ein Klassifizieren von Texten, beginnend mit „<Anzahl>“ oder „Schritt <Anzahl>“ als Schritt. Andere Heuristiken beinhalten das Erlernen eines Markups innerhalb des Hilfewebpagetextes, der die Schrittelemente angibt, so beispielsweise CSS-Klassennamen wie beispielsweise „Schritttitel“ oder „Überschrift“.

Bei 1506 extrahiert der Antwortkartenpräsentationsverwalter 180 Prozedurtitel durch Extrahieren eines Eltern-Titel-DOM-Knotens der Schrittknoten. Für jeden Schrittknoten ist die Spanne (span) des Schrittes beinhaltet, damit mehr DOM-Knoten beinhaltet sind. Als Beispiel werde die JSON-„Wie man“-Darstellung bei 1502 betrachtet. In der Auflistung werden die DOM-Knoten, die mit „1. Um eine Kurvenanpassung anzuwenden ...“ bzw. „1. To apply a Curves adjustment“ und „2. Werde eines vom Folgenden ausgeführt“ bzw. „2. Do one of the following“ etc. beginnen, als Schritt (durch heuristische Regeln) extrahiert. Sodann wird die Spanne (span) eines jeden Schrittes erweitert. So wird die Spanne von Schritt 2 beispielsweise derart erweitert, dass sie die nächsten Zeilen bis zu Schritt 3, nämlich „Den Kurvenicon anklicken“ bzw. „Click the Curves Icon“ beinhaltet. Sobald die Schritte identifiziert sind, extrahiert die Pipeline deren Prozedurtitel, indem sie den Eltern-Titel-DOM-Knoten der Schrittknoten extrahiert. Beim vorliegenden Beispiel wird „Bildfarbe und Ton an Kurven anpassen“ bzw. „Adjust image color and tone with Curves“ als Titel für die Schritte extrahiert.

Bei 1508 erstellt der Antwortkartenpräsentationsverwalter 180 eine Wissensbasis bzw. Wissensdatenbank von Antwortkarten, aus denen die besten Antworten für eine gegebene Anfrage abgerufen werden können, und pflegt diese. Unter Nutzung der Wissensbasis bzw. Wissensdatenbank nutzt für eine beliebige Eingabefrageabsicht eine Durchsuchung der Fragedatenbank eine semantische Ähnlichkeitssuche, um die kanonische Frage und die verknüpfte Antwortkarte zu lokalisieren.

Bei 1510 präsentiert der Antwortkartenpräsentationsverwalter 180 dem Nutzer die Antwortkarte auf einer Ausgabevorrichtung (beispielsweise der Anzeige 190 in 1).

16A ist ein Diagramm zur Darstellung einer exemplarischen „Wie man“-Antwortkarte 1600, die vorstehend beschrieben worden ist, im JSON-Format. In diesem Format ist ein „Schritte“-Feld (steps) vorhanden, das jeden Schritt in dem vorbeschriebenen Prozess abtrennt.

16B ist ein Diagramm zur Darstellung einer exemplarischen „Was ist“-Antwortkarte 1650 in einem JSON-Format. In diesem Fall ist ein „Antwortcontent“-Feld (answer contents) vorhanden, das als Unterfelder „Begriff“ (term) und „ähnliche Begriffe“ (similar terms) aufweist, wobei letztere durch die Anfrageprotokolle bestimmt sind.

17 ist ein Flussdiagramm zur Darstellung eines exemplarischen Verfahrens 1700 der Durchführung der verbesserten Technik, die hier beschrieben wird. Das Verfahren 1700 kann von Softwareobjekten durchgeführt werden, die in Verbindung mit 1 beschrieben worden sind, die in dem Speicher 126 des Computers 120 befindlich sind und die von dem Satz von Verarbeitungseinheiten 124 betrieben werden.

Bei 1702 empfängt der Computer 120 Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet.

Bei 1704 generiert der Computer 120 Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet.

Bei 1706 empfängt der Computer 120 einen Nutzeranfragestring.

Bei 1708 lokalisiert der Computer 120 in Reaktion auf den Nutzeranfragestring einen semantisch äquivalenten Begriff eines Begriff/Link-Paares der mehreren Begriff-Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird.

Bei 1710 gibt der Computer 120 eine Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung aus.

Es ist eine Anzahl von Ausführungsformen beschrieben worden. Es sollte jedoch einsichtig sein, dass verschiedene Abwandlungen daran vorgenommen werden können, ohne vom Wesen und Umfang der Beschreibung abzugehen.

Es sollte zudem einsichtig sein, dass dann, wenn von einem Element gesagt wird, dass es auf einem anderen Element ist, mit diesem verbunden ist, mit diesem elektrisch verbunden ist, mit diesem gekoppelt ist oder mit diesem elektrisch gekoppelt ist, es direkt auf dem anderen Element, mit diesem verbunden oder mit diesem gekoppelt sein kann, oder ein oder mehrere zwischenliegende Elemente vorhanden sein können. Im Gegensatz hierzu sind, wenn von einem Element gesagt wird, dass es direkt auf einem anderen Element ist, direkt mit diesem verbunden ist oder direkt mit diesem gekoppelt ist, keine zwischenliegenden Elemente vorhanden. Obwohl die Begriffe „direkt auf“, „direkt verbunden mit“ oder „direkt gekoppelt mit“ gegebenenfalls nicht in der Detailbeschreibung benutzt werden, können Elemente, die so dargestellt sind, dass sie direkt auf etwas sind, direkt mit etwas verbunden sind oder direkt mit etwas gekoppelt sind, als solche bezeichnet werden. Die Ansprüche der Anmeldung können verändert werden, um exemplarische Beziehungen, die in der Beschreibung beschrieben oder in den Figuren gezeigt sind, aufzunehmen.

Obwohl bestimmte Merkmale der beschriebenen Implementierungen gemäß der vorliegenden Beschreibung dargestellt worden sind, erschließen sich einem Fachmann zahlreiche Modifikationen, Ersetzungen, Änderungen und Äquivalente. Es sollte daher einsichtig sein, dass die beigefügten Ansprüche all diese Modifikationen und Änderungen abdecken sollen, so sie in den Umfang der Implementierungen fallen. Es sollte zudem einsichtig sein, dass diese lediglich im Sinne von Beispielen und nicht im Sinne einer Beschränkung präsentiert worden sind und verschiedene Änderungen an Form und Details vorgenommen werden können. Ein beliebiger Abschnitt der Einrichtungen und/oder Verfahren, die hier beschrieben werden, kann in einer beliebigen Kombination kombiniert werden, außer es ergeben sich einander wechselseitig ausschließende Kombinationen. Die hier beschriebenen Implementierungen können verschiedene Kombinationen und/oder Unterkombinationen der Funktionen, Komponenten und/oder Merkmale der verschiedenen beschriebenen Implementierungen beinhalten.

Zudem erfordern die logischen Abläufe, die in den Figuren beschrieben sind, nicht die bestimmte gezeigte Reihenfolge oder eine sequenzielle Reihenfolge, um gewünschte Ergebnisse zu erzielen. Darüber hinaus können weitere Schritte vorgesehen sein, es können Schritte aus den beschriebenen Abläufen gestrichen werden, oder es können weitere Komponenten zu den beschriebenen Systemen hinzugefügt oder aus diesen entfernt werden. Entsprechend sind auch andere Ausführungsformen innerhalb des Umfangs der nachfolgenden Ansprüche.

Claims

Computerimplementiertes Verfahren, umfassend: Empfangen von Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet; Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet; Empfangen eines Nutzeranfragestrings; in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgendes Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird; und Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung.
Verfahren nach Anspruch 1, wobei das Generieren der Antwortvorschlagsvorausschauindexdaten beinhaltet: Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraph darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht.
Verfahren nach Anspruch 2, wobei das Generieren der Antwortvorschlagsvorausschauindexdaten des Weiteren beinhaltet: Generieren von semantischen Kommentardaten, die jeweilige semantische Kommentare zu dem Thema und Satz von Unterthemen eines jeden der Sammlung von Dokumenten darstellen, wobei jeder der semantischen Kommentare ein jeweiliges Prädikat eines Satzes von Prädikaten und ein jeweiliges Objekt eines Satzes von Objekten beinhaltet; für jedes Prädikat des Satzes von Prädikaten erfolgendes Identifizieren wenigstens eines Objektes des Satzes von Objekten, die, wenn sie mit jenem Prädikat kombiniert werden, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entsprechen; und für jedes Objekt des Satzes von Objekten erfolgendes Identifizieren wenigstens eines Prädikates des Satzes von Prädikaten, die, wenn sie mit jenem Objekt kombiniert werden, einem von einem Thema oder einem Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entsprechen.
Verfahren nach Anspruch 2 oder 3, wobei das Generieren der Themenwissensgraphdaten beinhaltet: für jedes Dokument der Sammlung von Dokumenten erfolgendes Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jedem Dokument entspricht, wobei das DOM jedem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content eines jeden Dokumentes beinhaltet; und Zusammenstellen des Satzes von DOMen zum Generieren einer Master- bzw. Hauptlinkliste für den Themenwissensgraphen, wobei die Master- bzw. Hauptlinkliste mehrere eindeutige Links zu dem Content der Sammlung von Dokumenten beinhaltet.
Verfahren nach einem der Ansprüche 2 bis 4, wobei das Generieren der Themenwissensgraphdaten beinhaltet: für jedes Dokument der Sammlung von Dokumenten erfolgendes Generieren eines jeweiligen Dokumentobjektmodells (DOM) eines Satzes von DOMen, wobei das jeweilige DOM jenem Dokument entspricht, wobei das DOM jenem Dokument entspricht, das das Thema, den Satz von Unterthemen und die Links zu dem Content jenes Dokumentes beinhaltet; und Formatieren des Satzes von DOMen zum Erzeugen eines zusammengestellten abgeflachten Wissensgraphen, der für eine für die Verarbeitung natürlicher Sprache (NLP) gegebene Pipeline formatiert ist.
Verfahren nach Anspruch 5, wobei der zusammengestellte abgeflachte Wissensgraph wenigstens eines von dem Thema und Satz von Unterthemen eines jeden DOM des Satzes von DOMen beinhaltet, wobei die NLP-Pipeline dafür konfiguriert ist, <S, P, O>-Tripel zu erzeugen, die aus Subjekt, Prädikat und Objekt für jedes von dem Thema und Satz von Unterthemen eines jeden des Satzes von DOMen bestehen.
Verfahren nach Anspruch 5 oder 6, wobei das Generieren der Themenwissensgraphdaten des Weiteren beinhaltet: Unterteilen des zusammengestellten abgeflachten Wissensgraphen zum Erzeugen von mehreren zusammengestellten abgeflachten Wissensgraphteilen; und Durchführen einer Verarbeitung natürlicher Sprache durch die NP-Pipeline an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen zum Erzeugen des Wissensgraphen, wobei die Verarbeitung natürlicher Sprache an jedem der mehreren zusammengestellten abgeflachten Wissensgraphteilen parallel durchgeführt wird.
Verfahren nach einem der Ansprüche 5 bis 7, wobei das Generieren des DOM des Satzes von DOMen beinhaltet: Identifizieren von nichtinformativem Content eines jeden Dokumentes der Sammlung von Dokumenten; und Entfernen des nichtinformativen Contents jenes Dokumentes zum Erzeugen des Themas, des Satzes von Unterthemen und der Links zu dem Content jenes Dokumentes, wobei das Entfernen ein Anwenden eines TF-IDF-Algorithmus (Term Frequency Inverse Document Frequency TF-IDF) an jenem Dokument beinhaltet.
Verfahren nach einem der Ansprüche 5 bis 8, wobei das Generieren des DOM des Satzes von DOMen beinhaltet: Neuformatieren eines jeden Dokumentes der Sammlung von Dokumenten zum Erzeugen des Dokumentes, das in einer Markdown-Markup-Sprache (MDML) formatiert ist.
Computerprogrammerzeugnis, das ein nichttemporäres Speichermedium umfasst, wobei das Computerprogrammerzeugnis Code beinhaltet, der bei Ausführung durch Verarbeitungsschaltkreise eines Computers, der dafür konfiguriert ist, einen Nutzer auf Grundlage einer semantischen Interpretation einer von dem Nutzer eingegebenen Anfrage zu Content zu leiten, veranlasst, dass die Verarbeitungsschaltkreise ein Verfahren durchführen, wobei das Verfahren umfasst: Empfangen von Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet; Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet; Empfangen eines Nutzeranfragestrings; in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgendes Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird; und Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung.
Computerprogrammerzeugnis nach Anspruch 10, wobei das Generieren der Antwortvorschlagsvorausschauindexdaten beinhaltet: Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraphen darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht.
Computerprogrammerzeugnis nach Anspruch 11, wobei das Generieren der Antwortvorschlagsvorausschauindexdaten beinhaltet: Beziehen von Suchanfrageprotokolldaten, wobei die Suchanfrageprotokolldaten eine Abbildung zwischen Nutzeranfragedaten und Links zu Content der Sammlung von Dokumenten darstellen, wobei die Nutzeranfragedaten mehrere Nutzeranfragen darstellen; und Durchführen einer Textauswertungsoperation an den Suchanfrageprotokolldaten zum Erzeugen eines Satzes von gängigen Nutzeranfragen für eines von einem Thema oder einem jeweiligen Unterthema eines Satzes von Unterthemen eines Dokumentes der Sammlung von Dokumenten, wobei jedes von dem Thema und Satz von Unterthemen mit jeweiligem Content, der einem jeweiligen Link entspricht, verknüpft ist.
Computerprogrammerzeugnis nach Anspruch 12, wobei das Generieren der Antwortvorschlagsvorausschauindexdaten des Weiteren beinhaltet: Bilden von Paaren aus (i) einer jeweiligen Nutzeranfrage des Satzes von gängigen Nutzeranfragen und (ii) einem jeweiligen Link zu Content der Sammlung von Dokumenten, wobei jedes Paar auf kommentierten Themen und Sätzen von Unterthemen des Themenwissensgraphen beruht, wobei die kommentierten Themen und Sätze von Unterthemen Thementitel und <S, P, O>-Tripel beinhalten, die aus Subjekt, Prädikat und Objekt für jedes der Themen und Sätze von Unterthemen bestehen, und wobei das Erzeugen des Links zu spezifischem Content in der Sammlung von Dokumenten beinhaltet: Identifizieren eines Paares aus einer Nutzeranfrage und einem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt.
Computerprogrammerzeugnis nach Anspruch 13, wobei das Bilden der Paare aus Nutzeranfrage und Link zu dem Content beinhaltet: Generieren einer jeweiligen Gewichtung, die jedem von einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht, wobei das Identifizieren des Paares aus der Nutzeranfrage und dem Link zu dem Content, der semantisch am besten zu dem Prädikat und Objekt zu einem Prädikat und Objekt des empfangenen Nutzeranfragestrings passt, beinhaltet: Generieren einer Linearkombination aus dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content unter Nutzung der jeweiligen Gewichtung entsprechend jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content des Satzes von gängigen Nutzeranfragen, die am besten zu derselben Linearkombination aus einem Thementitel, einem Subjekt, einem Prädikat und textartigem Content entsprechend dem Nutzeranfragestring passt.
Computerprogrammerzeugnis nach Anspruch 14, wobei das Generieren der jeweiligen Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entsprechend dem Thementitel der Paare aus der Nutzeranfrage und dem Link zu dem Content entspricht, beinhaltet: Generieren einer Matrix, die mehrere Reihen aufweist, wobei jede der mehreren Reihen Elemente aufweist, die gleich einer jeweiligen Gewichtung des Thementitels, des Subjektes, des Prädikates und des textartigen Contents sind; für jedes der Paare aus Nutzeranfrage und Link zu dem Content des Satzes von gängigen Nutzeranfragen erfolgendes Bilden einer Merit-Funktion, die als Argumente (i) eine Suchfunktion der Nutzeranfragedaten, die Links zu Content der Sammlung von Dokumenten und eine Reihe der Matrix und (ii) einen bestimmten Link zu Content der Sammlung von Dokumenten nimmt, wobei die Suchfunktion einen Link als Ausgabe ausgibt, wobei die Merit-Funktion in Reaktion darauf, dass die Linkausgabe der Suchfunktion gleich dem bestimmten Link ist, einen Wert von 1 und in Reaktion darauf, dass die Linkausgabe der Suchfunktion nicht gleich dem bestimmten Link ist, einen Wert von 0 aufweist; und Identifizieren der Reihe der Matrix, die bewirkt, dass die Merit-Funktion einen Maximalwert annimmt, als diejenige Gewichtung, die jedem von dem Thementitel, dem Subjekt, dem Prädikat und dem textartigen Content entspricht.
Elektronische Einrichtung, die dafür konfiguriert ist, einen Nutzer auf Grundlage einer semantischen Interpretation einer durch den Nutzer eingegebenen Anfrage zu Content zu leiten, wobei die elektronische Einrichtung umfasst: eine Netzwerkschnittstelle; einen Speicher; und Steuer- bzw. Regelschaltkreise, die mit dem Speicher gekoppelt sind, wobei die Steuer- bzw. Regelschaltkreise konfiguriert sind zum: Empfangen von Dokumentdaten, die eine Sammlung von Dokumenten darstellen, wobei jedes Dokument der Sammlung von Dokumenten ein jeweiliges Thema und das Thema betreffenden Content beinhaltet; Generieren von Antwortvorschlagsvorausschauindexdaten auf Grundlage der Sammlung von Dokumenten, wobei die Antwortvorschlagsvorausschauindexdaten mehrere Begriff/Link-Paare darstellen, wobei jedes Begriff/Link-Paar der mehreren Begriff/Link-Paare einen semantisch äquivalenten Begriff und einen entsprechenden Link zu Content der Sammlung von Dokumenten beinhaltet; Empfangen eines Nutzeranfragestrings; in Reaktion auf das Empfangen des Nutzeranfragestrings erfolgenden Lokalisieren eines semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare, wobei der semantisch äquivalente Begriff auf Grundlage einer semantischen Äquivalenz zu dem Nutzeranfragestring lokalisiert wird; und Ausgeben einer Darstellung des Links des lokalisierten Begriff/Link-Paares an eine Ausgabevorrichtung.
Elektronische Einrichtung nach Anspruch 16, wobei die Steuer- bzw. Regelschaltkreise, die zum Generieren der Antwortvorschlagsvorausschauindexdaten konfiguriert sind, des Weiteren konfiguriert sind zum: Generieren von Themenwissensgraphdaten auf Grundlage der Sammlung von Dokumenten, wobei die Themenwissensgraphdaten einen Themenwissensgraph darstellen, der (i) ein jeweiliges Thema und einen Satz von Unterthemen eines jeden der Sammlung von Dokumenten und (ii) Links zu dem Content der Sammlung von Dokumenten beinhaltet, wobei jeder der Links einem von einem jeweiligen Thema oder Unterthema des Satzes von Unterthemen eines jeden der Sammlung von Dokumenten entspricht.
Elektronische Einrichtung nach Anspruch 17, wobei der Wissensgraph des Weiteren für ein Thema Links zu Content, der anderen Themen entspricht, beinhaltet.
Elektronische Einrichtung nach einem der Ansprüche 16 bis 18, wobei die Steuer- bzw. Regelschaltkreise, die zum Ausgeben der Darstellung des Links des lokalisierten Begriff/Link-Paares an die Ausgabevorrichtung konfiguriert sind, des Weiteren konfiguriert sind zum: Anzeigen einer Antwortkarte, die dem Link des lokalisierten Begriff/Link-Paares entspricht, wobei die Antwortkarte ein Fenster beinhaltet, in dem der Content, der dem Link entspricht, enthalten ist.
Elektronische Einrichtung nach einem der Ansprüche 16 bis 19, wobei die Steuer- bzw. Regelschaltkreise, die zum Lokalisieren des semantisch äquivalenten Begriffes eines Begriff/Link-Paares der mehreren Begriff/Link-Paare konfiguriert sind, des Weiteren konfiguriert ist zum: Lokalisieren von Content, der Text beinhaltet, der einen Schritt eines Prozesses angibt; und Identifizieren des Themas, dem der Content entspricht.