-
Technisches Gebiet
-
Die vorliegende Offenbarung betrifft das Gebiet von Informationssystemen und insbesondere natürliche Sprachverarbeitung, Fragenerzeugung und Fragenbeantwortung aus Wissensbasisdaten.
-
Hintergrund
-
Fragenerzeugung und -beantwortung sind Disziplinen in der Computerwissenschaft, die auf das Erstellen von elektronischen Datensystemen ausgerichtet sind, die in der Lage sind, Antworten in natürlicher Sprache auf Fragen in natürlicher Sprache bereitzustellen. Ein Datensystem kann zum Beispiel dazu ausgelegt sein, die Frage in natürlicher Sprache „Wie viele Pints sind in einer Gallone?“ mit einer Antwort in natürlicher Sprache von „Acht Pints sind eine Gallone“ zu beantworten. In dem obigen Beispiel werden sowohl die Frage als auch die Antwort in einem Format präsentiert, die ein menschlicher Sprecher zum Fragen und Beantworten der Frage verwenden würde, wodurch die Antwort für die Person, die die Frage stellt, leicht verständlich gemacht wird.
-
Beim Erstellen eines Datensystems zur Fragenbeantwortung in natürlicher Sprache wird eine Datenbank von Fragen und Antworten in natürlicher Sprache erzeugt. Dieser Prozess wird als Datensammlung bezeichnet. Datensammlung schließt typischerweise Maschinenlernverfahren ein und erfordert eine gewisse Menge an aufgabenrelevanten Daten für Trainings- und Testzwecke. Eine übliche Datensammlungslösung besteht darin, die Daten manuell zusammen. Crowdsourcing ist zum Beispiel eine typische Weise, Daten über eine Online-Kollaboration vieler Menschen manuell zu sammeln. Crowdsourcing ist jedoch zeitaufwendig und ist es manchmal schwierig, Daten guter Qualität zu erhalten, falls die Menschen, die die Daten sammeln, keine Experten in der entsprechenden Thematik sind. Darüber hinaus werden jedes Mal, das ein zu einer anderen Thematik (d. h. einer anderen Domäne) ausgerichtetes Datensystem gewünscht wird, zusätzliche Daten gesammelt und die Fragen und Antworten müssen erneut erzeugt werden. Des Weiteren sind die Fragen und Antworten des Datensystems typischerweise auf ein spezifisches Format, eine spezifische Syntax und eine spezifische Organisation beschränkt.
-
Frage-und-Antwort-Datensysteme besitzen das Potenzial, eine menschliche Interaktion mit elektronischen Maschinen zu vereinfachen. Bekannte Verfahren und Systeme zur Erstellung von Frage-und-Antwort-Datensystemen sind jedoch arbeitsintensiv und zeitaufwendig. Aus zumindest diesen Gründen sind weitere Entwicklungen in dem Bereich von Frage-und-Antwort-Datensystemen gewünscht.
-
Kurzdarstellung
-
Gemäß einem Ausführungsbeispiel der Offenbarung beinhaltet ein Verfahren zum Erzeugen eines Fragendatensatzes aus einer Wissensbasis einschließlich mehrerer Aussagen Erzeugen von mindestens einer Fragenvorlage basierend auf einer Struktur von ausgewählten Aussagen der mehreren Aussagen, Erzeugen einer Seed-Frage für jede ausgewählte Aussage basierend auf der mindestens einen Fragenvorlage mit einem Prozessor, Erzeugen von mindestens einer ersten Erweiterungsfrage mit einer Suchmaschine durch Verarbeiten von jeder der Seed-Fragen über die Suchmaschine, und Speichern der mindestens einen ersten Erweiterungsfrage und/oder der Seed-Fragen in einem ersten Speicher als den Fragendatensatz.
-
Gemäß einem anderen Ausführungsbeispiel der Offenbarung beinhaltet ein Fragenerzeugungssystem zum Erzeugen eines Fragendatensatzes aus einer Wissensbasis mit mehreren Aussagen einen Speicher und einen Ferncomputer. Der Ferncomputer ist funktionsfähig mit der Wissensbasis und dem Speicher verbunden. Der Ferncomputer beinhaltet einen Prozessor, der dazu ausgelegt ist, mindestens eine ausgewählte Aussage der mehreren Aussagen zu identifizieren, eine Seed-Frage für jede ausgewählte Aussage unter Verwendung von mindestens einer Fragenvorlage, die auf einer Struktur der mindestens einen ausgewählten Aussage basiert, zu erzeugen, mindestens eine erste Erweiterungsfrage aus jeder der Seed-Fragen mit einer Suchmaschine, die funktionsfähig mit dem Ferncomputer verbunden ist, zu erzeugen und die mindestens eine erste Erweiterungsfrage und/oder die Seed-Fragen im Speicher als den Fragendatensatz zu speichern.
-
Figurenliste
-
Die oben beschriebenen Merkmale und Vorteile, sowie andere, sollten Durchschnittsfachleuten unter Bezugnahme auf die folgende ausführliche Beschreibung und die begleitenden Figuren leichter ersichtlich werden, in denen gilt:
- 1 ist ein Blockdiagramm eines Fragenerzeugungs- und -beantwortungssystems einschließlich eines Ferncomputers zum Erzeugen eines Fragendatensatzes und einer Client-Einrichtung, die dazu ausgelegt ist, sich mit dem Ferncomputer zu verknüpfen;
- 2 ist eine Abbildung von Aussagen aus einer beispielhaften Wissensbasis, die durch den Ferncomputer verwendet wird, um den Fragendatensatz zu erzeugen;
- 3 ist ein Flussdiagramm, das ein beispielhaftes Verfahren zum Erzeugen des Fragendatensatzes abbildet; und
- 4 ist ein Diagramm, das einen beispielhaften Fragenerweiterungsprozess unter Verwendung einer Suchmaschine veranschaulicht.
-
Ausführliche Beschreibung
-
Zum Zwecke der Förderung eines Verständnisses der Prinzipien der Offenbarung wird nun auf die in den Zeichnungen veranschaulichten und in der folgenden schriftlichen Spezifikation beschriebenen Ausführungsformen Bezug genommen. Es versteht sich, dass dadurch keine Beschränkung des Schutzumfangs der Offenbarung beabsichtigt wird. Es versteht sich weiterhin, dass diese Offenbarung jegliche Abwandlungen und Modifikationen an den veranschaulichten Ausführungsformen beinhaltet und weitere Anwendungen der Prinzipien der Offenbarung beinhaltet, wie sie einem Fachmann des technischen Gebiets, zu welchem diese Offenbarung gehört, normalerweise in den Sinn kommen würden.
-
Alternative Ausführungsformen der Offenbarung und ihre Äquivalente können entwickelt werden, ohne vom Gedanken oder Schutzumfang der Offenbarung abzuweichen. Es sollte angemerkt werden, dass eine jegliche Besprechung hierin bezüglich „eine Ausführungsform“, „eines Ausführungsbeispiels“ und dergleichen angibt, dass die beschriebene Ausführungsform ein spezielles Merkmal, eine spezielle Struktur oder Charakteristik beinhalten kann, und dass ein derartiges spezielles Merkmal, eine derartige spezielle Struktur oder Charakteristik möglicherweise nicht notwendigerweise in jeder Ausführungsform eingeschlossen ist. Zusätzlich dazu umfassen Bezüge auf das Vorstehende nicht notwendigerweise einen Bezug auf dieselbe Ausführungsform. Schließlich, ungeachtet dessen, ob es ausdrücklich beschrieben ist, würde ein Durchschnittsfachmann leicht verstehen, dass jedes des speziellen Merkmals, jede der speziellen Struktur oder Charakteristik der gegebenen Ausführungsformen in Verbindung oder Kombination mit denen einer beliebigen anderen hierin besprochenen Ausführungsformen genutzt werden kann.
-
Für die Zwecke der Offenbarung bedeutet die Phrase „A und/oder B“ (A), (B) oder (A und B). Für die Zwecke der Offenbarung bedeutet die Phrase „A, B und/oder C“ (A), (B), (C), (A und B), (A und C), (B und C) oder (A, B und C).
-
Die Ausdrücke „umfassend“, „beinhaltend“ und „aufweisend“ und dergleichen, wie unter Bezugnahme auf Ausführungsformen der Offenbarung verwendet, sind synonym.
-
Wie in 1 dargestellt, beinhaltet ein Fragenerzeugungs- und -beantwortungssystem 100 eine drahtlose Einrichtung 104, die zur Kommunikation mit einem zellularen Netz 108 und dem Internet 112 ausgelegt ist, einen ersten Datenserver 116, der dazu ausgelegt ist, eine Wissensbasis 120 anzubieten und zu speichern, einen zweiten Datenserver 122, der dazu ausgelegt ist, einen Fragendatensatz 124 anzubieten und zu speichern, einen ersten Ferncomputer 128 einschließlich eines Prozessors 132 und eines Speichers 136, der eine Programmanweisung für eine Suchmaschine 140 speichert, einen zweiten Ferncomputer 144 einschließlich eines Prozessors 148 und eines Speichers 152, der Vorlagenerzeugungssoftware 156 speichert, Fragenerzeugungssoftware 160, Fragenerweiterungssoftware 164 und Interaktionsdienstsoftware 168. Wie unten ausführlich dargelegt ist, ist das System 100 dazu ausgelegt, Seed-Fragen in natürlicher Sprache aus Daten, die in der Wissensbasis 120 gespeichert sind, automatisch zu erzeugen und Erweiterungsfragen basierend auf den Seed-Fragen unter Verwendung der Suchmaschine 140 zu erzeugen. Die erzeugten Fragen werden in dem Fragendatensatz 124 gespeichert. Die Interaktionsdienstsoftware 168 ist dazu ausgelegt, viele Arten, Versionen und Konstruktionen von Fragen in natürlicher Sprache, wie von einer Client-Einrichtung, wie etwa der drahtlosen Einrichtung 104, empfangen, unter Verwendung des Fragendatensatzes 124 zu beantworten.
-
Die drahtlose Einrichtung 104 ist eine beispielhafte Client-Einrichtung, die dazu ausgelegt ist, Anfragen (d. h. Fragendaten) zu dem Ferncomputer 144 zu senden und Daten (d. h. Antwortdaten) über das Internet 112 von dem Ferncomputer 144 zu empfangen. Die Einrichtung 104 beinhaltet eine Anzeigeeinheit 172, eine Eingabeeinrichtung 176, einen Sendeempfänger 180 und einen Speicher 184, die jeweils funktionsfähig mit einem Prozessor 188 verbunden sind. Die drahtlose Einrichtung 104 ist typischerweise ein Zellulartelefon, ein Mobiltelefon, ein Smartphone, ein Tablet-Computer oder eine beliebige andere geeignete Einrichtung.
-
Die Anzeigeeinheit 172 ist ein Flüssigkristallanzeigen(LCD)-Feld, das dazu ausgelegt ist, Text, Bilder und andere visuell erfassbaren Daten anzuzeigen. Die Anzeigeeinheit 172 ist bei einer anderen Ausführungsform eine beliebige Anzeige, wie durch Durchschnittsfachleute gewünscht, einschließlich unter anderem eine Aktivmatrix-Anzeige mit organischer Leuchtdiode.
-
Die Eingabeeinrichtung 176 ist dazu ausgelegt, einem Benutzer zu ermöglichen, Daten einzugeben und auf der Anzeigeeinheit 172 dargestellte Objekte zu manipulieren. Die Eingabeeinrichtung 176 ist zum Beispiel dazu ausgelegt, Fragendaten, die einer Frage in natürlicher Sprache oder einer anderen Nachfrage entspricht, die zu dem Ferncomputer 144 gesendet werden sollen, zu erzeugen. Bei einer anderen Ausführungsform ist die Eingabeeinrichtung 176 ein Touchscreen, der über der Anzeigeeinheit 172 eingesetzt wird und dazu ausgelegt ist, auf die Berührung eines Fingers oder eines Stylus zu reagieren. Bei noch einer anderen Ausführungsform ist die Eingabeeinrichtung 176 eine beliebige Einrichtung, die dazu ausgelegt ist, ein Eingabesignal zu erzeugen, wie durch Durchschnittsfachleute gewünscht.
-
Der Sendeempfänger 180, der auch als ein drahtloser Sender und Empfänger bezeichnet wird, ist dazu ausgelegt, drahtlos mit dem zellularen Netz 108, einem drahtlosen Lokalnetz („WiFi“), einem persönlichen Netz und/oder einem beliebigen anderen Drahtlosnetz zu kommunizieren. Dementsprechend ist der Sendeempfänger 180 mit einem beliebigen gewünschten Drahtloskommunikationsstandard oder -protokoll kompatibel, einschließlich unter anderem Nahfeldkommunikation („NFC“), IEEE 802.11, IEEE 802.15.1 („Bluetooth®“), Global System for Mobiles („GSM“) und Codemultiplex-Mehrfachzugriff („CDMA“).
-
Der Speicher 184 ist eine elektronische Datenspeichereinheit, die hierin auch als ein nichtflüchtiges computerlesbares Medium bezeichnet wird. Wie hierin dargelegt, ist der Speicher 184 dazu ausgelegt, Programmanweisungen und Software zum Betreiben der drahtlosen Einrichtung 104 zu speichern. Beliebige andere elektronische Daten können auch in dem Speicher 184 gespeichert werden, wie etwa Daten, die von den Datenservern 116, 122 und den Ferncomputern 128, 144 über das Internet 112 empfangen werden.
-
Der Prozessor 188 ist dazu ausgelegt, Programmanweisungen und Software, die in dem Speicher 184 gespeichert sind, zum Betreiben der damit verbundenen Komponenten, wie etwa der Anzeigeeinheit 172, der Eingabeeinrichtung 176 und des Sendeempfängers 180, auszuführen. Der Prozessor 188 ist als ein Mikroprozessor, ein Controller oder eine beliebige andere Art von elektronischem Steuerchip bereitgestellt. Bei einer Ausführungsform führt der Prozessor 188 Programmanweisungen (d. h. Software, eine Anwendung oder eine „App“) aus, die vom Internet 112 heruntergeladen werden und die der drahtlosen Einrichtung 104 ermöglichen, elektronisch mit dem Ferncomputer 144 zu kommunizieren. Programmanweisungen und/oder Software zum Senden von Fragendaten zu dem Ferncomputer 144 und zum Empfangen von Antwortdaten vom Ferncomputer 144 können zum Beispiel vom Internet 112 heruntergeladen, in dem Speicher 184 gespeichert und durch den Prozessor 188 ausgeführt werden.
-
Der erste Datenserver 116 ist funktionsfähig mit dem Internet 112 verbunden und ist dazu ausgelegt, Daten vom Internet 112, die in der Wissensbasis 120 gespeichert oder zu dieser hinzugefügt werden sollen, zu empfangen. Der Datenserver 116 ist auch dazu ausgelegt, Fragendaten, die auf die Wissensbasis 120 ausgerichtet sind, von Client-Einrichtungen und vom Ferncomputer 144 zu empfangen. Darüber hinaus ist der Datenserver 116 ferner dazu ausgelegt, Daten zu den Client-Einrichtungen und den Ferncomputern 128, 144 als Reaktion auf die empfangenen Daten zu senden oder diesen anzubieten. Der Datenserver 116 ist zum Beispiel dazu ausgelegt, Daten von der Wissensbasis 120 zu dem Ferncomputer 144 als Reaktion auf das Empfangen einer geeigneten Anforderung vom Ferncomputer 144 zu senden. Der Datenserver 116 kann auch dazu ausgelegt sein, Daten von der Wissensbasis 120 zu dem Ferncomputer 128 als Reaktion auf das Empfangen einer geeigneten Anforderung vom Ferncomputer 128 oder vom Ferncomputer 144 zu senden. Der Datenserver 116 ist über das Internet 112 indirekt elektrisch mit den Ferncomputern 128, 144 verbunden; bei einer anderen Ausführungsform kann der Datenserver 116 jedoch direkt elektrisch mit mindestens einem der Femcomputer 128, 144 verbunden sein. Des Weiteren kann der Datenserver 116 bei manchen Ausführungsformen in einem der Ferncomputer 128, 144 enthalten sein.
-
2 bildet einen beispielhaften Teil der Wissensbasis 120 ab, die in dem Datenserver 116 gespeichert ist. Die Wissensbasis 120 beinhaltet elektronische Daten in einem organisierten Format, das durch ein Computersystem, wie etwa die Ferncomputer 128, 144 und die drahtlose Einrichtung 104, durchsucht werden kann. Allgemein sind die in der Wissensbasis 120 enthaltenen elektronischen Daten entweder eine geschlossene Domäne oder eine offene Domäne. Eine Wissensbasis geschlossener Domäne ist typischerweise auf eine spezielle Thematik, wie etwa zum Beispiel Elektrowerkzeuge, beschränkt. Eine Wissensbasis offener Domäne ist typischerweise nicht auf eine spezielle Thematik beschränkt. Die Verwendung von Wissensbasen sowohl offener Domäne als auch geschlossener Domäne nimmt schnell zu. Darüber hinaus gibt es in der Industrie schon viele strukturierte elektronische Datensätze, die sich zur Organisation in eine Wissensbasis eignen; wodurch die Anzahl von verfügbaren Wissensbasen weiter erhöht wird.
-
Die beispielhafte Wissensbasis 120 von 2 ist eine Ressource-Description-Framework(„RDF“)-Wissensbasis geschlossener Domäne. Die Domäne betrifft Elektrowerkzeuge. Jede Zeile der Wissensbasis 120 wird hierin als eine Aussage 204 oder ein Tripel bezeichnet. Die erste Spalte der Wissensbasis 120 beinhaltet Subjekt-Ausdrücke der Aussagen 204, die zweite Spalte der Wissensbasis 120 beinhaltet Prädikat-Ausdrücke der Aussagen 204 und die dritte Spalte der Wissensbasis 120 beinhaltet Objekt-Ausdrücke der Aussagen 204. Die vierte Spalte beinhaltet eine Nummer zum praktischen Referenzieren der Aussagen 204 und ist möglicherweise Teil der Wissensbasis 120 oder nicht. Die Subjekt-Ausdrücke bezeichnen ein Betriebsmittel, wie etwa zum Beispiel eine Stichsäge oder einen Elektroschrauber. Die Prädikat-Ausdrücke bezeichnen Charakteristiken oder Aspekte der Betriebsmittel und drücken eine Beziehung zwischen dem Subjekt und dem Objekt aus. Die erste Aussage 204 in der Wissensbasis 120 gibt somit zum Beispiel an, dass eine „Stichsäge“ (Subjekt) ausgelegt ist zum „Durchführen der Aktivität“ (Prädikat) „Kurvenschnitt“ (Objekt). Die zwölfte Aussage 204 in der Wissensbasis 120 gibt an, dass ein „Elektroschrauber“ (Subjekt) ausgelegt ist zum „Enthalten des Zubehörs“ (Prädikat) „Batteriepack“ (Objekt). Bei anderen Ausführungsformen der Wissensbasis 120 und bei anderen Ausführungsformen des Fragenerzeugungs- und -beantwortungssystems 100 kann die Wissensbasis 120 eine beliebige andere Art von Wissensbasis sein, die in einer beliebigen computerlesbaren und -durchsuchbaren Anordnung organisiert ist.
-
Wiederum unter Bezugnahme auf 1 ist der zweite Datenserver 122 funktionsfähig mit dem Internet 112 verbunden und dazu ausgelegt, Daten, die mit zumindest dem Fragendatensatz 124 assoziiert sind, anzubieten und zu speichern. Als Reaktion auf das Empfangen einer Frage, Nachfrage oder anderen Anforderung von der Interaktionsdienstsoftware 168 sendet der Datenserver 122 Daten vom Fragendatensatz 124 zu der drahtlosen Einrichtung 104 und/oder den Ferncomputern 128, 144. In 1 ist der Datenserver 122 über das Internet 112 funktionsfähig mit den Ferncomputern 128, 144 verbunden. Bei anderen Ausführungsformen ist der Datenserver 122 mit mindestens einem der Ferncomputer 128, 144 direkt verbunden. Wie in 1 dargestellt, sind die Wissensbasis 120 und der Fragendatensatz 124 auf unterschiedlichen Datenservern 116, 122 gespeichert. Bei anderen Ausführungsformen sind die Wissensbasis 120 und der Fragendatensatz 124 auf demselben Datenserver gespeichert oder sind in einem der Ferncomputer 128, 144 enthalten.
-
Der Fragendatensatz 124 ist ein computerdurchsuchbarer Datensatz, der mehrere Fragen und Antworten basierend auf der Wissensbasis 120 beinhaltet. Bei einer Ausführungsform sind die Fragen und Antworten des Fragendatensatzes 124 Fragen in natürlicher Sprache, was bedeutet, dass die Fragen und Antworten auf eine Art und Weise formatiert sind, die durch einen menschlichen Leser verstanden werden kann. Eine beispielhafte Frage, die in dem Fragendatensatz 124 gespeichert ist und auf der ersten Aussage 204 der Wissensbasis 120 basiert, lautet „Kann eine Stichsäge zum Durchführen eines Kurvenschnitts an einem Werkstück verwendet werden?“ Eine andere beispielhafte Frage, die in dem Fragendatensatz 124 gespeichert ist und auf derselben Aussage 204 basiert, lautet „Ist eine Stichsäge ein geeignetes Werkzeug zum Durchführen eines Kurvenschnitts?“ Der Fragendatensatz 124 beinhaltet bei mindestens einer Ausführungsform ungefähr zehntausend Fragen; bei anderen Ausführungsformen beinhaltet der Fragendatensatz 124 jedoch eine beliebige geeignete Anzahl von Fragen basierend auf der Anzahl von Aussagen in der Wissensbasis 120.
-
Der Ferncomputer 128 beinhaltet den Prozessor 132, der funktionsfähig mit dem Speicher 136 verbunden ist, der dazu ausgelegt ist, Programmanweisungen für eine Suchmaschine 140 zu speichern. Der Prozessor 132 ist als ein Mikroprozessor, ein Controller oder eine beliebige andere Art von elektronischem Steuerchip bereitgestellt. Der Speicher 136 ist eine elektronische Datenspeichereinheit, die hierin auch als ein nichtflüchtiges computerlesbares Medium bezeichnet wird. Beliebige andere elektronische Daten können auch in dem Speicher 136 gespeichert sein. Der Ferncomputer 128 ist dazu ausgelegt, Nachfragen, die an die Suchmaschine 140 gerichtet sind, zu empfangen und Daten, die durch die Suchmaschine 140 erzeugt werden, Client-Einrichtungen, die funktionsfähig mit dem Internet 112 verbunden sind, wie etwa zum Beispiel der drahtlosen Einrichtung 104 und dem Ferncomputer 144, anzubieten.
-
Die Suchmaschine 140, die hierin auch als eine Websuchmaschine bezeichnet wird, ist ein Programm, Programme oder Software, das bzw. die dazu ausgelegt ist bzw. sind, nach Informationen oder Daten im Internet 112 zu suchen. Die Suchmaschine 140 empfängt eine Nachfrage oder einen oder mehrere Suchbegriffe von einer Client-Einrichtung, verarbeitet die Nachfrage oder den Suchbegriff über zum Beispiel eine Datenbank und erzeugt dann eine Ausgabe basierend auf der Nachfrage oder dem Suchbegriff. Als Reaktion auf das Empfangen eines Suchbegriffs, wie etwa „Elektrowerkzeuge“, verarbeitet die Suchmaschine 140 zum Beispiel den Suchbegriff und erzeugt eine Ausgabe, die eine Liste von Webseiten beinhaltet, die den Suchbegriff beinhalten. Die Suchmaschine 140 ist auch dazu ausgelegt, empfohlene Suchnachfragen zu erzeugen. Als Reaktion auf das Empfangen von entweder (i) einem Suchbegriff, (ii) einer partiellen Nachfrage in natürlicher Sprache und/oder (iii) einer vollständigen Nachfrage in natürlicher Sprache ist die Suchmaschine 140 zum Beispiel dazu ausgelegt, zusätzliche vollständige Nachfragen in natürlicher Sprache basierend auf den empfangenen Daten zu erzeugen. Als Reaktion auf das Empfangen der folgenden vollständigen Nachfrage in natürlicher Sprache, „Kann eine Stichsäge Nägel schneiden?“, kann die Suchmaschine 140 die folgenden zusätzlichen Nachfragen in natürlicher Sprache erzeugen und zurückgeben: (i) „Kann eine Stichsäge durch Nägel schneiden?“, (ii) „Kann man eine Stichsäge zum Schneiden von Nägeln verwenden?“ und (iii) „Kann ich eine Stichsäge zum Schneiden eines Nagels verwenden?“ Somit ist die Suchmaschine 140 eine Quelle für Nachfragen in natürlicher Sprache, die regelmäßig aktualisiert wird. Beispielhafte Suchmaschinen 140 beinhalten die Suchmaschinen, die bei www.google.com und www.yahoo.com verfügbar sind. Bei einer anderen Ausführungsform kann die Suchmaschine 140 eine beliebige gewünschte Suchmaschine oder eine beliebige Kombination von Suchmaschinen beinhalten. Das heißt, die Suchmaschine 140 kann zusätzliche Nachfragen in natürlicher Sprache durch Verarbeiten (i) eines Suchbegriffs, (ii) einer partiellen Nachfrage in natürlicher Sprache und/oder (iii) einer vollständigen Nachfrage in natürlicher Sprache über mehr als eine Suchmaschine erzeugen.
-
Der Ferncomputer 144 beinhaltet den Prozessor 148, der funktionsfähig mit dem Speicher 152 verbunden ist. Der Prozessor 148 ist als ein Mikroprozessor, ein Controller oder eine beliebige andere Art von elektronischem Steuerchip bereitgestellt. Der Speicher 152 ist eine elektronische Datenspeichereinheit, die hierin auch als ein nichtflüchtiges computerlesbares Medium bezeichnet wird. Der Speicher 152 ist dazu ausgelegt, die Vorlagenerzeugungssoftware 156, die Fragenerzeugungssoftware 160, die Fragenerweiterungssoftware 164 und die Interaktionsdienstsoftware 168 zu speichern, die jeweils unten ausführlich beschrieben sind. Beliebige andere elektronische Daten, Software und/oder Programmanweisungen können auch in dem Speicher 152 gespeichert sein. Der Ferncomputer 144 wird hierin auch als eine Interaktionsdiensteinrichtung bezeichnet, da der Ferncomputer 144 den Speicher 152 mit der darauf gespeicherten Interaktionsdienstsoftware 168 beinhaltet.
-
Im Betrieb ist das Fragenerzeugungs- und -beantwortungssystem 100 dazu ausgelegt, ein Verfahren 300 zu implementieren, das durch das Flussdiagramm von 3 veranschaulicht wird. Bei der Beschreibung des Verfahrens 300 beziehen sich Aussagen, dass das Verfahren 300 irgendeine Aufgabe oder Funktion durchführt, auf einen Controller oder Allzweckprozessor, der programmierte Anweisungen ausführt, die in einem nichtflüchtigen computerlesbaren Speichermedium gespeichert sind, das funktionsfähig mit dem Controller oder Prozessor verbunden ist, um Daten zu manipulieren oder eine oder mehrere Komponenten in dem Fragenerzeugungs- und -beantwortungssystem 100 zu betreiben, die Aufgabe oder Funktion durchzuführen. Insbesondere kann der Prozessorschaltkreis/die Prozessorlogik des Prozessors 148 des Ferncomputers 144 und/oder des Prozessors 132 des Ferncomputers 128 ein derartiger Controller oder Prozessor sein. Alternativ dazu können die Prozessoren 132, 148 mit mehr als einem Prozessor und assoziiertem Schaltkreis und assoziierten Komponenten implementiert sein, von denen jede/jeder dazu ausgelegt ist, eine oder mehrere von hierin beschriebenen Aufgaben oder Funktionen zu bilden. Zusätzlich dazu kann das Verfahren 300 in einer beliebigen umsetzbaren chronologischen Reihenfolge durchgeführt werden, unabhängig von der in den Figuren dargestellten Reihenfolge oder der Reihenfolge, in welcher das Verfahren 300 beschrieben wird.
-
Kurz gesagt, beinhaltet das Verfahren 300 Verarbeiten der Wissensbasis 120, um ausgewählte Aussagen 204 zu identifizieren, wie durch Block 304 dargestellt. Dann beinhaltet das Verfahren 300 in Block 308 Erzeugen von mindestens einer Fragenvorlage für die ausgewählten Aussagen 204. Als Nächstes beinhaltet das Verfahren 300 in Block 312 Verwenden der mindestens einen Fragenvorlage, um mehrere Seed-Fragen in natürlicher Sprache aus den ausgewählten Aussagen 204 zu bilden. Die Seed-Fragen werden dann durch die Suchmaschine 140 verarbeitet, um jede Seed-Frage in mindestens eine Erweiterungsfrage zu erweitern, wie in Block 316 angemerkt. Die Seed-Fragen und die Erweiterungsfragen werden in dem Fragendatensatz 124 gespeichert und zumindest die Seed-Fragen werden mit einer Antwort assoziiert. Der Ferncomputer 144 empfängt eine Nachfrage von einer Client-Einrichtung (z. B. der drahtlosen Einrichtung 104) und bewirkt, dass die Interaktionsdienstsoftware 168 statistische Prozesse verwendet, um die empfangene Nachfrage mit der Frage des Fragendatensatzes 124 zu assoziieren, die am besten mit der empfangenen Nachfrage übereinstimmt (oder genau mit dieser übereinstimmt). Als Nächstes sendet der Ferncomputer 144 die entsprechende Antwort, falls verfügbar, zu der drahtlosen Einrichtung 104. Auf diese Weise erzeugt und beantwortet das Fragenerzeugungs- und -beantwortungssystem 100 effizient Fragen in natürlicher Sprache. Jeder dieser Schritte ist unten ausführlicher beschrieben.
-
Wie in Block 304 dargestellt, beinhaltet das Verfahren 300 Verarbeiten der Wissensbasis 120, um ausgewählte Aussagen 204 zu identifizieren. Bei manchen Ausführungsformen eignen sich manche Aussagen 204 oder manche Teile der Wissensbasis 120 möglicherweise nicht zur Fragenerzeugung; darüber hinaus können manche Aussagen 204 auf eine erste Domäne ausgerichtet sein und können andere Aussagen 204 auf eine zweite Domäne ausgerichtet sein. Dementsprechend beinhaltet das Verfahren 300 Verwenden des Prozessors 148, um die Aussagen 204 der Wissensbasis 120 zu identifizieren, aus denen sinnvolle Fragen erzeugt werden können; diese Aussagen 240 werden hierin als ausgewählte Aussagen 240 bezeichnet. Dementsprechend lädt der Prozessor 148 während des Verarbeitungsschritts des Blocks 304 zumindest einen Teil der Wissensbasis 120 über das Internet 112 herunter und verarbeitet die Wissensbasis 120, um ausgewählte Aussagen 240 zu identifizieren, aus denen Fragen erzeugt werden.
-
Bei einer Ausführungsform bestimmt der Prozessor 148 während des Verarbeitungsschritts des Blocks 304 eine entsprechende Domäne, die mit jedem Prädikat-Ausdruck der Aussagen 204 assoziiert ist. Dann wählt ein Benutzer eine der bestimmten Domänen als die ausgewählte Domäne aus (hierin auch als eine „Arbeitsdomäne“ bezeichnet). Danach identifiziert der Prozessor 148 die Aussagen 204, die die ausgewählte Domäne aufweisen, als die ausgewählten Aussagen 204 zur weiteren Verarbeitung und Fragenerzeugung. Die Aussagen 204, die eine Domäne aufweisen, die nicht die gleiche wie die ausgewählte Domäne ist oder dieser ähnelt, sind keine ausgewählten Aussagen und werden nicht bei der Fragenerzeugung verwendet.
-
Während des Verarbeitungsschritts des Blocks 304 kann der Prozessor 148 auch die ausgewählten Aussagen 204 in Gruppen mit den gleichen oder ähnlichen Prädikat-Ausdrücken organisieren, wodurch der Vorlagenerzeugungsschritt des Blocks 308 vereinfacht wird. Durch das Organisieren der Prädikat-Ausdrücke ermöglicht der Prozessor 148 einem Benutzer, jegliche Aussagen 204 zu entfernen, die mit der ausgewählten Domäne übereinstimmen oder dieser ähneln, sich aber nicht zur Fragenerzeugung eignen. Wie in 2 dargestellt, gibt es zwei verschiedene Prädikat-Ausdrücke; nämlich „führt Aktivität durch“ und „enthält Zubehör“. Während des Verarbeitungsschritts des Blocks 304 kann der Prozessor 148 daher die Aussagen 204 mit der Nummer 1-3 und 7-9 in eine erste Gruppe von Aussagen 204 gruppieren und der Prozessor 148 kann die Aussagen 204 mit der Nummer 4-6 und 10-12 in eine zweite Gruppe von Aussagen 204 gruppieren.
-
Als Nächstes werden im Block 308 Fragenvorlagen basierend auf der Struktur der ausgewählten Aussagen 204 erzeugt. Die Fragenvorlagen können manuell erzeugt werden oder können automatisch durch den Prozessor 148 erzeugt werden. Ausführungsformen des Fragenerzeugungs- und -beantwortungssystems 100, die die Fragenvorlagen automatisch erzeugen, verwenden die Vorlagenerzeugungssoftware 156, die in dem Speicher 152 gespeichert ist. Die Fragenvorlagen, ob manuell oder automatisch erzeugt, sind im Speicher 152 gespeichert. Zusätzlich oder alternativ dazu sind die Fragenvorlagen in einem beliebigen gewünschten elektronischen Speicher gespeichert.
-
Eine Fragenvorlage ist eine „Lücken-Ausfüllen“-Anleitung, die verwendet wird, um eine ausgewählte Aussage 204 in eine Frage in natürlicher Sprache umzuwandeln. Eine Fragenvorlage, die für die Aussagen 204 in der Wissensbasis 120 erzeugt wird, die den Prädikat-Ausdruck „führt Aktivität durch“ aufweisen, lautet zum Beispiel „Kann X Y durchführen?“ In der vorstehenden Fragenvorlage wird das „X“ mit einem Subjekt-Ausdruck ausgefüllt und das „Y“ wird mit einem Objekt-Ausdruck ausgefüllt. In Anbetracht der ersten Aussage 204 resultiert das Ausfüllen der Fragenvorlage in einer Frage, die lautet: „Kann eine Stichsäge Kurvenschnitte durchführen?“ Als ein anderes Beispiel kann für die Aussagen 204 in der Wissensbasis 120, die den Prädikat-Ausdruck „enthält Zubehör“ aufweisen, die folgende Fragenvorlage verwendet werden: „Enthält X Y?“ In Anbetracht der zehnten Aussage 204 resultiert das Ausfüllen der Fragenvorlage in einer Frage, die lautet: „Enthält ein Elektroschrauber ein Flachkopfbit?“ Für die typische Wissensbasis 120 werden nur zwei bis drei Fragenvorlagen für jede Gruppe von ausgewählten Aussagen 204 benötigt. Darüber hinaus werden die Fragenvorlagen leicht und schnell durch einen Benutzer basierend auf der Struktur der Aussage 204 erzeugt; somit ist es keine erhebliche Belastung, die Fragenvorlagen manuell zu erzeugen.
-
Als Nächstes verwendet der Prozessor 148 im Block 312 die Fragenerzeugungssoftware 160, um mindestens eine Seed-Frage für jede ausgewählte Aussage 204 zu erzeugen. Dementsprechend kann der Ferncomputer 144 hierin als ein Fragenerzeugungssystem bezeichnet werden. Die Seed-Fragen sind Fragen in natürlicher Sprache, die aus dem Ausfüllen der Fragenvorlagen mit den entsprechenden Ausdrücken aus den Aussagen 204 in der Wissensbasis 120 resultieren. Somit sind die oben dargelegten beispielhaften Fragen einschließlich „Kann eine Stichsäge Kurvenschnitte durchführen?“ und „Enthält ein Elektroschrauber ein Flachkopfbit?“ Seed-Fragen. Typischerweise wird mindestens eine Seed-Frage für jede der ausgewählten Aussagen 204 der Wissensbasis 120 erzeugt. Falls eine spezielle Aussage 204 jedoch mit mehr als einer Fragenvorlage assoziiert ist, dann können mehr als eine Seed-Frage aus der speziellen ausgewählten Aussage 204 erzeugt werden. Die Seed-Fragen werden zumindest temporär im Speicher 152 gespeichert. Die Gruppe von Seed-Fragen, die im Speicher 152 gespeichert ist, kann hierin als ein Seed-Fragensatz bezeichnet werden. Darüber hinaus können manche oder alle der Seed-Fragen im Fragendatensatz 124 des Datenservers 122 gespeichert sein.
-
Ein Vorteil des Seed-Fragensatzes besteht darin, dass, da die Seed-Fragen aus der Wissensbasis 120 und den Fragenvorlagen erzeugt werden, die Schlüsselinformationen in den Seed-Fragen (d. h. der Subjekt-Ausdruck, der Prädikat-Ausdruck und der Objekt-Ausdruck) automatisch annotiert werden. Das heißt, in der Seed-Frage „Kann eine Stichsäge Kurvenschnitte durchführen?“ ist aus der Wissensbasis 120 bekannt, dass der Subjekt-Ausdruck „Stichsäge“ ist, der Prädikat-Ausdruck „führt Aktivität durch“ ist und der Objekt-Ausdruck „Kurvenschnitt“ ist. Daher wird eine menschliche Annotation der Seed-Fragen typischerweise nicht benötigt.
-
Als Nächstes wird im Block 316 und unter Bezugnahme auf 4 mindestens eine Erweiterungsfrage mit der Suchmaschine 140 erzeugt. Genauer gesagt, werden die Erweiterungsfragen mit der Suchmaschine 140 durch Verarbeiten von einer der Seed-Fragen über die Suchmaschine 140 und dann, falls gewünscht, Verarbeiten der erzeugten Erweiterungsfragen über die Suchmaschine 140 erzeugt, um zusätzliche Erweiterungsfragen zu erzeugen. Dieser Prozess wird für jede Seed-Frage wiederholt. Typischerweise sind die Seed-Fragen hinsichtlich ihres Umfangs und ihrer Natürlichkeit beschränkt. Um breiter gefächerte Fragen zu erhalten, setzt das System 100 das Internet 112 wirksam ein, um den Seed-Fragensatz auszubauen. Genauer gesagt, wird jede Seed-Frage über das Internet 112 zu der Suchmaschine 140 gesendet. Die Suchmaschine 140 ist dazu ausgelegt, mindestens eine Erweiterungsfrage, die sich von der Seed-Frage unterscheidet, für jede der Seed-Fragen zu erzeugen. Der Fragenerweiterungsprozess wird durch das Diagramm von 4 veranschaulicht. Wie in 4 dargestellt, erzeugt die Suchmaschine 140 nach dem Verarbeiten der Seed-Frage über die Suchmaschine 140 drei Erweiterungsfragen. Die Suchmaschine 140 kann während der Verarbeitung einer Frage von einer bis fünfzig Erweiterungsfragen erzeugen. Als Nächstes wird jede der Erweiterungsfragen über die Suchmaschine 140 verarbeitet und zwei zusätzliche Erweiterungsfragen werden für jede der ursprünglichen Erweiterungsfragen erzeugt. Dieser Prozess wird iterativ N Male wiederholt, um eine beliebige gewünschte Anzahl von Erweiterungsfragen unter Verwendung der Suchmaschine 140 zu erzeugen.
-
Der Ferncomputer 128 sendet die mindestens eine Erweiterungsfrage, die durch die Suchmaschine 140 erzeugt wird, über das Internet 112 zu dem Ferncomputer 144. Die Erweiterungsfragen werden als ein Erweiterungsfragensatz im Speicher 152 gespeichert. Wenn die Seed-Frage „Enthält ein Elektroschrauber ein Flachkopfbit?“ zum Beispiel zu der Suchmaschine 140 gesendet wird, gibt die Suchmaschine 140 zumindest die folgenden Erweiterungsfragen zurück, einschließlich „Hat ein Schraubendreher ein Flachkopfbit?“, „Verwendet ein Elektroschrauber ein Flachkopfbit?“ „Enthält ein Screwdriver Wodka?“
-
Die Erweiterungsfragen repräsentieren typischerweise Informationsbedürfnisse eines realen Benutzers und daher resultiert eine Erzeugung der Erweiterungsfragen typischerweise in vielen sinnvollen Fragen. Die Erweiterungsfragen sind jedoch nicht auf die ausgewählte Domäne beschränkt und können fehlerhafte Daten enthalten, die entweder grammatikalisch unkorrekt oder für die ausgewählte Domäne irrelevant sind. In dem obigen Beispiel erzeugt die Suchmaschine 140 zum Beispiel die Erweiterungsfrage „Enthält ein Screwdriver Wodka?“ Die Erweiterungsfrage bezieht sich auf das Getränk mit dem Namen Screwdriver anstatt auf das Elektrowerkzeug mit dem Namen Schraubendreher. Somit ist die Erweiterungsfrage nicht Teil der ausgewählten Domäne. Um diese Art von Problem zu berücksichtigen, verarbeitet die Fragenerweiterungssoftware 164 die Erweiterungsfragen und entfernt jegliche Fragen aus dem Speicher 152, die sich auf eine andere Domäne als die ausgewählte Domäne beziehen, grammatikalisch unkorrekt sind und/oder beleidigende oder unangemessene Ausdrücke enthalten. Die Erweiterungsfragen, die sich hinreichend auf die ausgewählte Domäne beziehen, werden hierin als die ausgewählten Erweiterungsfragen bezeichnet. Die Erweiterungsfragen können auch manuell durch einen menschlichen Techniker gefiltert werden, um unerwünschte Erweiterungsfragen zu entfernen und die ausgewählten Erweiterungsfragen zu identifizieren.
-
Bei einer Ausführungsform wird das Filtern der Erweiterungsfragen basierend auf einer Domäne als Auswählen von Erweiterungsfragen basierend auf der Relevanz und Sprachgewandtheit der Erweiterungsfragen bezeichnet. Relevanz ist ein Maß darüber, ob sich die Erweiterungsfrage auf die ausgewählte Domäne bezieht. Sprachgewandtheit ist ein Maß darüber, ob die Erweiterungsfrage gut in einer natürlichen Satzkonstruktion geschrieben ist. Nur jene Erweiterungsfragen, die eine hohe Relevanz und Sprachgewandtheit aufweisen, werden in den Fragendatensatz 124 eingeschlossen. In Abhängigkeit von der Ausführungsform können unterschiedliche Faktoren verwendet werden, um die Erweiterungsfragen zu bestimmen, die sich ausreichend auf die ausgewählte Domäne beziehen, um in den Fragendatensatz 124 eingeschlossen zu werden. Bei einer Ausführungsform, bei der die Erweiterungsfragen automatisch gefiltert werden, wendet die Fragenerweiterungssoftware 164 zum Beispiel statistische Ansätze an den Erweiterungsfragen an, um die Erweiterungsfragen zu filtern.
-
Nachdem der Prozessor 148 die Seed-Fragen erzeugt und die ausgewählten Erweiterungsfragen bestimmt hat, assoziiert der Prozessor 148 zumindest die Seed-Fragen mit einer Antwort. Typischerweise beinhaltet die Wissensbasis 120 Antworten auf die Fragen, die aus den Aussagen 204 erzeugt werden. Die Antwort lautet zum Beispiel „Ja“ auf die beispielhafte Seed-Frage „Enthält ein Elektroschrauber ein Flachkopfbit?“ Es kann basierend auf der Struktur der zehnten Aussage 204, die angibt, dass ein Elektroschrauber ein Flachkopfbit enthält, bestimmt werden, dass die Antwort „Ja“ lautet. Dementsprechend weist die Wissensbasis 120 möglicherweise keine Spalte für die „Antworten“ auf; die Antworten können jedoch durch den Prozessor 148 für zumindest die Seed-Fragen oder durch einen menschlichen Techniker für die Seed-Fragen und die Erweiterungsfragen bestimmt werden. Das heißt, falls die Antworten auf irgendwelche der Fragen nicht automatisch durch den Prozessor 148 erzeugt werden können, kann ein menschlicher Techniker die Antwort auf beliebige der Fragen bestimmen. Die Antworten auf die Seed-Fragen werden zumindest temporär im Speicher 152 gespeichert.
-
Als Nächstes speichert der Ferncomputer 144 die Seed-Fragen, die ausgewählten Erweiterungsfragen und die Antworten im Fragendatensatz 124 des Datenservers 122. Der Fragendatensatz 124 beinhaltet daher mehrere Fragen bezüglich der ausgewählten Domäne. Die Fragen sind in vielen Anwendungen nützlich, wie etwa intelligenten Benutzerinteraktion-und-Assistenz-Systemen, die Benutzern intelligente Dienste basierend auf ihren Fragen oder Anfragen in natürlicher Sprache bereitstellen. Die Fragen des Fragendatensatzes 124 spiegeln typischerweise reale Informationsbedürfnisse eines Benutzers wider. Durch das Nutzen des Fragendatensatzes 124 kann das intelligente Benutzerinteraktion-und-Assistenz-System lernen, welche Art von Informationen der Benutzer versuchen wird, zu erhalten, und wie der Benutzer wahrscheinlich seine Anforderung in Fragen in natürlicher Sprache für die ausgewählte Domäne formulieren wird. Bei einer Ausführungsform wird der Fragendatensatz 124 verwendet, um ein Fragenverständnismodul zu trainieren, das Teil eines Fragenbeantwortungsdienstes ist.
-
Bei einem Ausführungsbeispiel nutzt die Interaktionsdienstsoftware 168 des Ferncomputers 144 den Fragendatensatz 124 aus, um Fragen zu beantworten, die von einer Client-Einrichtung, wie etwa der drahtlosen Einrichtung 104, empfangen werden. Somit ist der Ferncomputer 144 ein beispielhaftes intelligentes Benutzerinteraktion-und-Assistenz-System. Genauer gesagt, gibt ein Benutzer eine Frage in natürlicher Sprache (oder eine Frage in einem beliebigen anderen Format) unter Verwendung der Eingabeeinrichtung 176 in die drahtlose Einrichtung 104 ein. Die drahtlose Einrichtung 104 sendet Fragendaten, die der benutzereingegebenen Frage entsprechen, zu dem Ferncomputer 144, der die Fragendaten über die Interaktionsdienstsoftware 168 verarbeitet. Insbesondere verwendet die Interaktionsdienstsoftware 168 den Fragendatensatz 124 und statistische Analyseansätze und/oder beliebige andere gewünschte Verarbeitungsschritte, um eine übereinstimmende Frage zu bestimmen, die die passendste Frage des Fragendatensatzes 124 auf die benutzereingegebene Frage ist. Dann sendet der Ferncomputer 144 die mit der übereinstimmenden Frage assoziierte Antwort über das Internet 112 zu der drahtlosen Einrichtung 104. Auf diese Weise wird die benutzereingegebene Frage schnell, leicht und in einem natürlichen Sprachformat beantwortet.
-
Obgleich die Offenbarung in den Zeichnungen und der vorangehenden Beschreibung veranschaulicht und ausführlich beschrieben wurde, sollte diese als in ihrem Charakter als veranschaulichend und nicht einschränkend angesehen werden. Es versteht sich, dass nur die bevorzugten Ausführungsformen präsentiert wurden und das Änderungen, Modifikationen und weiteren Anwendungen, die in das Wesen der Offenbarung fallen, als zu schützend gewollt sind.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- IEEE 802.11 [0016]
- IEEE 802.15.1 [0016]