DE102018008188A1

DE102018008188A1 - Erstellen von Inhalt basierend auf einer Mehr-Satz-Komprimierung eines Quellinhalts

Info

Publication number: DE102018008188A1
Application number: DE102018008188.6A
Authority: DE
Inventors: Balaji Vasan Srinavasan; Pranav Ravindra Maneriker; Natwar Modani; Kundan Krishna
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2017-12-26
Filing date: 2018-10-16
Publication date: 2019-07-11
Also published as: AU2018250372A1; US10949452B2; GB201817487D0; US20190197184A1; CN109960721A; GB2569858A; AU2018250372B2

Abstract

Ausführungsformen der vorliegenden Erfindung stellen Systeme, Verfahren und Computerspeichermedien bereit, die darauf gerichtet sind, eine Korpus-basierte Inhalt-Erzeugung zu ermöglichen, insbesondere unter Verwendung einer Graphen-basierten Multi-Satz-Komprimierung, um eine finale Inhaltsausgabe zu erzeugen. In einer Ausführungsform wird ein bereits existierender Quellinhalt in einem Korpus identifiziert und von diesem abgerufen. Der Quellinhalt wird dann in Satz-Token geparst, abgebildet und gewichtet. Die Satz-Token werden weiter in Wort-Token geparst und gewichtet. Die gewichteten Wort-Token werden dann in Kandidatensätze komprimiert, welche in einem finalen Inhalt verwendet werden sollen. Der finale Inhalt wird zusammengefügt unter Verwendung von in Rangfolge geordneten Kandidatensätzen, so dass der finale Inhalt organisiert wird, eine Informationsredundanz zu verringern und eine Inhaltskohäsion zu optimieren.

Description

Hintergrund
Mit der Zunahme der Anzahl der Kanäle, auf denen Inhalte konsumiert werden, muss ein Verfasser von Inhalten (z.B. ein Autor), der textuelle Inhalte (z.B. Artikel) für verschiedene Zwecke verfasst, sicherstellen, dass seine erzeugten Inhalte den Anforderungen des gewählten Verbreitungskanals und den Bedürfnissen der gewünschten Zielgruppe entsprechen. Während beispielsweise bestimmte Kanäle wie Social Media-Plattformen kürzere Darstellungen von Inhalten erfordern mögen, mögen andere Kanäle wie Newsletter, Informationsbroschüren, Zeitungen und Websites komplexere Darstellungen von Inhalten zulassen.
Um den Anforderungen der speziell ausgewählten Kanäle und Zielgruppen gerecht zu werden, suchen Inhaltsautoren oft nach bereits vorhandenen Inhalten, die für die Erzeugung neuer Inhalte oder die Ausarbeitung von Inhalten neu verwendet werden können. Häufig sind die Zusatzinformationen, nach denen der Autor sucht, bereits in verschiedenen Formen vorhanden, z.B. im Internet oder in einem Untemehmensumfeld (z.B. in der Dokumentendatenbank eines Unternehmens). In Ermangelung einer geeigneten Unterstützung kuratieren die Autoren der Inhalte solche Inhalte manuell aus einem Korpus, und reduzieren infolgedessen ihre Produktivität. So kann es beispielsweise zeitaufwändig sein, nach relevanten Informationen zu suchen, die relevanten Informationen zu analysieren, um doppelte Informationen zu entfernen und die Abdeckung verschiedener Themen sicherzustellen, und danach einen gut geschriebenen Inhalt zu erstellen. In einigen Fällen führt die Langweiligkeit der manuellen Erstellung eines Inhalts aus bereits vorhandenen Inhalten dazu, dass ein Autor einen Inhalt von Grund auf neu erstellt, anstatt Zeit damit zu verbringen, nach schwer aufzufindendem, bereits vorhandenem Inhalt zu suchen, um diesen wiederzuverwenden. Eine solche manuelle Inhaltskuration kann jedoch zu verschiedenen Fehlern und Inkonsistenzen führen.
Zusammenfassung
Ausführungsformen der vorliegenden Erfindung beziehen sich auf Verfahren, Systeme und computerlesbare Medien zum Erzeugen von Inhalt unter Verwendung von bestehendem Inhalt. In dieser Beziehung kann auf Quellinhalt, der für ein eingegebenes Schnipsel (Snippet) relevant ist, zugegriffen und dieser als eine Basis zum Erzeugen eines neuen Inhalts verwendet werden. Nachdem relevanter Quellinhalt identifiziert wurde, wird der Quellinhalt allgemein komprimiert, um einen neuen Kandidateninhalt zu erzeugen. Der Kandidateninhalt kann dann bewertet werden, um den Inhalt auf kohäsive Weise zu sequenzieren, um einen finalen Inhalt zu erzeugen. Vorteilhafter Weise optimiert eine Korpus-basierte automatische Inhaltserzeugung nach Relevanz basierend auf einem eingegebenen Schnipsel (zum Beispiel Schlüsselwörter, Phrasen oder Sätze), deckt in dem erzeugten finalen Inhalt unterschiedliche Informationen ab, minimiert Inhaltsredundanz und verbessert die Kohärenz des finalen Inhalts.
Um einen neuen Inhalt zu erzeugen, ermöglichen hierin beschriebene Ausführungsformen, aus einem eingegebenen Schnipsel die Intention eines Benutzers zu extrahieren. Danach kann ein bereits existierender Quellinhalt (zum Beispiel Fragmente textlicher Information) in einem Korpus identifiziert und abgerufen werden zur Verwendung beim Erzeugen eines Kandidateninhalts. Das eingegebene Schnipsel wird insbesondere verwendet, um eine Abfrage zu formulieren, welche den aus einem Korpus abzurufenden, bereits existierenden Quellinhalt identifiziert. Darüber hinaus wird der aus dem Korpus abgerufene Quellinhalt komprimiert, um neue Kandidatensätze zu erstellen, zur Aufnahme in einer finalen Inhaltsausgabe. Genauer werden eine Graphen-basierte Formulierung und ein Gewichtungssystem verwendet, um eine Multi-Satz-Komprimierung zu ermöglichen, um einen neuen Kandidateninhalt zu erzeugen. Die Erzeugung von Kandidateninhalten kann iterative ausgeführt werden, bis der abgerufene Quellinhalt, der für das Schnipsel relevant ist, aufgebraucht wurde. Die neu erzeugten Kandidateninhalte werden in Rangfolgen geordnet und sequenziert, um einen kohärenten finalen Inhalt zu bilden. Wie verstanden werden wird, kann der finale Inhalt einer von einem Benutzer gewünschten Inhaltslänge entsprechen.
Diese Zusammenfassung wurde gegeben, um eine Auswahl von Konzepten in einer vereinfachten Weise vorzustellen, welche nachfolgend in der detaillierten Beschreibung näher beschrieben werden. Diese Zusammenfassung ist nicht dazu gedacht, Schlüsselmerkmale oder essentielle Merkmale des beanspruchten Gegenstandes zu identifizieren, und ist auch nicht dazu gedacht, als eine Hilfe beim Bestimmen des Bereichs des beanspruchten Gegenstandes verwendet zu werden.
Figurenliste
Die vorliegende Erfindung wird nachfolgend im Detail beschrieben, mit Bezug auf die beigefügten Zeichnungen, in welchen:

1 eine schematische Darstellung eines Systems zum Ermöglichen der Inhaltserzeugung ist, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung;
2 eine Darstellung eines Inhalt-Erzeugungswerks ist, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung;
3 eine Darstellung eines Flussdiagramms ist, das ein Verfahren zum Abrufen von Quellinhalt aus einem Korpus zeigt, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung;
4 eine Darstellung eines Flussdiagramms ist, das ein Verfahren zum Komprimieren von Quellinhalt in Kandidatensätze zeigt, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung;
5 eine Darstellung eines Flussdiagramms ist, das ein Verfahren zum Sequenzieren von Kandidatensätzen in einen kohärenten finalen Inhalt zeigt, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung;
6 eine Darstellung eines Flussdiagramms eines beispielhaften Ansatzes zur Inhalt-Erzeugung ist, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung; und
7 eine Darstellung eines Blockdiagramms einer beispielhaften Rechnerumgebung ist, die geeignet ist, um zur Implementierung von Ausführungsformen der vorliegenden Erfindung verwendet zu werden.

Detaillierte Beschreibung
Der Gegenstand der vorliegenden Erfindung wird hierin im Detail beschrieben, um den Vorschriften zu genügen. Die Beschreibung ist selbst jedoch nicht dazu gedacht, den Bereich dieses Patents zu beschränken. Die Erfinder haben vielmehr bedacht, dass der beanspruchte Gegenstand auch auf andere Weisen verwirklicht werden kann, unterschiedliche Schritte oder Kombinationen von Schritten enthalten kann, welche ähnlich den in diesem Dokument beschriebenen sind, in Verbindung mit anderen derzeitigen oder zukünftigen Technologien. Weiter sollen, auch wenn hierin die Begriffe „Schritt“ und/oder „Block“ so verwendet werden, um unterschiedliche Elemente der verwendeten Verfahren zu bezeichnen, sollen diese Begriffe nicht so interpretiert werden, dass diese eine bestimmte Reihenfolge unter oder zwischen verschiedenen hierin offenbarten Schritten implizieren würden, solange nicht ausnahmsweise die Reihenfolge der einzelnen Schritte explizit beschrieben ist.
Textliche Inhalte werden allgemein für unterschiedliche Zwecke erstellt. Als ein Beispiel kann ein textlicher Inhalt ein Artikel sein, den ein Autor zu erstellen wünscht, welcher verschiedene Regeln und Vorschriften ausführlich beschreibt. Die textlichen Inhalte können auch einen Artikel beinhalten, den ein Autor zu erstellen wünscht, welcher neue und verbesserte Spezifikationen einer kürzlich freigegebenen Technologie zum Posten auf einer Firmenwebseite oder in dem Website oder in der Bedienungsanleitung des Produkts, dem Benutzerhandbuch oder der Schnellstartanleitung detailliert beschrieben wird. Die textlichen Inhalte können weiter einen längeren Artikel umfassen, welcher in einem professionellen Journal veröffentlicht werden soll, wie etwa einem Medizinjournal, welcher Risikofaktoren, Symptome, Behandlung und Prävention für ein bestimmtes Leiden darlegt. Beim Erstellen solcher textlichen Längen mag der Autor die verschiedenen Längen des gewünschten Inhalts, die Kanäle der Verbreitung des Inhalts und/oder das beabsichtigte Zielpublikum berücksichtigen.
Die Information, welche ein Autor in einem neuen Artikel abhandeln möchte, existiert oftmals. Zum Beispiel mag die gewünschte Information in einem Unternehmenskorpus oder dem Internet in einer Erscheinungsform vorliegt, einschließlich früherer Artikel, Datenblätter, technischer Spezifikationsdokumente und anderer Dokumente, die für die gegenwärtigen Aufgaben des Autors wiederverwendet werden können. Diese Informationen können jedoch über zahlreiche Dokumente und Systeme verteilt sein. Das Auffinden und Identifizieren der gewünschten Informationen ist daher oft schwierig und zeitaufwendig.
Weiterhin erstellen Inhaltsautoren, nach dem Suchen nach und Identifizieren von relevanten Informationen, neue Inhalte oftmals von Hand, was ebenfalls zeitaufwändig und fehlerträchtig ist. In dieser Hinsicht analysiert ein Autor, nach dem Identifizieren von Informationen, die von Interesse sind, die Daten und identifiziert, wie auf Basis der erhaltenen Informationen ein neuer Inhalt zu erstellen ist. Ein Autor mag zum Beispiel identifizieren, welche Informationen verwendet und wie die Informationen strukturiert werden sollen. Zusätzlich dazu, zeitraubend zu sein, kann eine derartige manuelle Erstellung von Inhalten in duplikativer Information, Grammatikfehlern, Inkohärenz und so weiter resultieren. Darüber hinaus, mangels eines Quellenabrufmechanismus, der geeignet ist, von Autoren gewünschte Informationen zu identifizieren, erstellen die Autoren Inhalte allgemein von Grund auf neu, was die Produktivität weiter verringert.
In einer Bestrebung, ein manuelles Suchen nach zusätzlichen Quellinformationen zu vermeiden, um einen neuen Inhalt zu erstellen, beinhaltet ein herkömmlicher Ansatz ein Identifizieren von Schlüsselkonzepten in einem initialen Dokument und ein Verknüpfen dieser Konzepte mit einer entsprechenden Wikipedia Seite. Ein Autor kann dann zu der verknüpften Wikipedia Seite navigieren und diese untersuchen, um zu bestimmen, ob die Seiten nützliche Informationen enthalten, welche der Autor manuell wiederverwerten möchte, um einen Inhalt zu erzeugen. Während diese Lösung relevante Wikipedia Seiten identifiziert, welche nützliche Informationen enthalten mag, verringert sie lediglich das Ausmaß der erforderlichen manuellen Suche. Darüber hinaus muss ein Autor weiter einen Inhalt manuell erzeugen, nachdem er oder sie die Wikipedia Seiten manuell begutachtet hat, um mögliche nützliche Informationen zu identifizieren.
Es wurden auch einige Anstrengungen dahingehend unternommen, Inhalt im Kontext des Wissensmanagements bereitzustellen. Eine derartige Lösung trachtet danach, das Beantworten von Fragen zu verbessern, indem ein Expansionsalgorithmus verwendet wird, um automatisch einen gegebenen Textkorpus zu erweitern mit in Beziehung stehenden Inhalten von einer großen externen Quelle, wie etwa das Internet. Insbesondere geht diese Lösung von einem „Seed Dokument“ als Basis aus und expandiert dieses unter Verwendung von Internetressourcen, um eine Antwort basierend auf „Paragraphenklumpen“ zu konstruieren. Diese Lösung ist jedoch nicht für den menschlichen Konsum gedacht, sondern ist idealer Weise allein für den Fragenbeantwortungsraum geeignet. Darüber hinaus berücksichtigt diese Lösung keine lexikalischen und semantischen Redundanzen in der Antwort, welche für einen Autor von Inhalten unerwünscht sind. Neuere Texterzeugung setzt auf das Trainieren eines neuronalen Netzwerks, welches den Erzeugungsprozess lernen kann. Ein derartiges Trainieren von neuronalen Netzwerken verlässt sich jedoch auf einen extensiven Trainingskorpus, welcher sowohl einen Inhaltsschnipsel und eine intendierte Inhalt-Erzeugung beinhaltet, was eine nichttriviale Kommentierung erfordert.
Dementsprechend sind hierin beschriebene Ausführungsformen gerichtet auf das automatische Erzeugen von Inhalten unter Verwendung von existierenden Inhalten. In dieser Hinsicht erzeugen hierin beschriebene Ausführungsformen automatisch Inhalt, hierin auch als finaler Inhalt bezeichnet, unter Verwendung von verfügbarem Quellinhalt, ohne Trainingsdaten zu verwenden. Im Betrieb kann basierend auf einem von einem Benutzer eingegebenen Schnipsel ein relevanter Quellinhalt identifiziert werden. In Ausführungsformen wird ein Inhalt erzeugt aus einer Menge an bereits existierendem Quellinhalt, welcher verschiedene Aspekte der Zielinformation abdecket, um die Abdeckung von Themen, die in der Inhalt-Erzeugung abgedeckt werden, zu diversifizieren oder erweitern. Unter Verwendung derartigen relevanten Quellinhalts können Kandidateninhalte, wie etwa Kandidatensätze, generiert werden. Wie hierin beschrieben identifiziert die Kandidateninhalt-Erzeugung Inhalt, der für eine Eingabe eines Benutzers relevant ist, und komprimiert Inhalt, um Redundanzen in dem Inhalt zu minimieren. Um geeigneten Inhalt für die Konstruktion auszuwählen kann eine Graphenrepräsentation verwendet werden, die verschiedene Sätze repräsentiert. Der am meisten „belohnende“ Teil der Graphenrepräsentation wird identifiziert und die entsprechenden Sätze können komprimiert werden, um einen Kandidateninhalt mit minimaler Inhaltsredundanz zu generieren. Die Inhaltskompression reduziert die syntaktischen und lexikalischen Redundanzen, die wegen multiplen Manifestationen derselben Information in unterschiedlichen Teilen des Inhaltskorpus auftreten. Weiter ermöglicht die Inhaltskomprimierung die Erzeugung von neuem Inhalt durch Beobachten der Satzkonstrukte in dem Korpus, anstatt einfach Sätze aus dem Korpus auszuwählen. Nachdem Kandidateninhalt aus dem am meisten „lohnenden“ Abschnitt der Graphenrepräsentation erzeugt wurde, wird der Graph angepasst, um die Information in dem erzeugten Kandidateninhalt zu berücksichtigen, wodurch die Informationsabdeckung in dem nachfolgend erzeugten Inhalt erhöht wird. Wie verstanden werden wird, können Kandidateninhalte iterative erzeugt werden, bis die gesamte Information in der Graphenrepräsentation, welche für die Eingabe des Benutzers relevant ist, (zumindest zu einem gewissen Grad) ausgeschöpft wurde.
Nach dem Erzeugen von Kandidateninhalten kann ein finaler Inhalt ausgewählt werden. In Ausführungsformen, wird eine gemischt-ganzzahlige Optimierung („Mixed Integer Program“, MIP) verwendet, um Inhalt auszuwählen, welcher die Relevanz für die Benutzereingabe sowie auch die Kohäsion zu maximieren. In dieser Hinsicht kann Kandidateninhalt auf eine kohäsive Weise sequenziert und/oder assembliert werden. Weiter kann beim Optimieren des finalen Inhaltes der finale Inhalt in Übereinstimmung mit einem gewissen Budget oder einer gewünschten Länge des Inhalts konstruiert werden. Als solches kann ein finaler Inhalt ausgegeben werden, der komprimiert Sätze zusammen mit einer Sequenz aufweist, um einen kohäsiven Inhalt einer gewünschten Länge zu liefern.
Mit Bezug nun auf 1 ist eine schematische Darstellung gegeben, die ein beispielhaftes System 100 zeigt, in welchem einige Ausführungsformen der vorliegenden Erfindung verwendet werden können. Neben anderen nicht gezeigten Komponenten kann die Umgebung 100 ein Inhalt-Erzeugungswerk 102, eine Benutzervorrichtung 104 und einen Datenspeicher 106 beinhalten. Es sei verstanden, dass das in 1 gezeigte System 100 ein Beispiel eines geeigneten Rechnersystems ist. Jede der in 1 gezeigten Komponenten kann mittels einer beliebigen Form von Rechnervorrichtung implementiert sein, wie beispielsweise der mit Bezug auf 7 beschriebenen Rechnervorrichtung. Die Komponenten über ein oder mehrere Netzwerke 108 können, welche ohne Beschränkung ein oder mehrere lokale Netzwerke (LANs) und/oder Weitbereichsnetzwerke (WANs) umfassen können. Derartige Netzwerkumgebungen sind allgegenwärtig in Büros, unternehmensweiten Computernetzen, Intranetzen und dem Internet.
Es sollte verstanden werden, dass diese und andere hierin beschriebene Anordnungen lediglich als Beispiele angegeben sind. Andere Anordnungen und Elemente (zum Beispiel Maschinen, Schnittstellen, Funktionen, Reihenfolgen, Gruppierungen von Funktionen und so weiter) können zusätzlich zu oder anstelle der gezeigten verwendet werden, und einige Elemente mögen vollständig ausgelassen sein. Weiter sind viele der hierin beschriebene Elemente funktionelle Entitäten, welche als diskrete oder verteilte Komponenten oder in Verbindung mit anderen Komponenten implementiert sein, und in jeder geeigneten Kombination und an jedem geeigneten Ort. Verschiedene Funktionen, die hierin als von einem oder von mehreren Entitäten ausgeführt beschrieben sind, können durch Hardware, Firmware und/oder Software ausgeführt werden. Zum Beispiel können verschiedene Funktionen von einem Prozessor ausgeführt werden, welcher Anweisungen ausführt, die in einem Speicher gespeichert sind.
Allgemein ermöglicht das System 100 die Erstellung von Inhalten unter Verwendung von bestehenden Inhalten. Wie hierin verwendet bezieht sich Inhalt allgemein auf elektronische, textliche Inhalte, wie etwa ein Dokument, eine Webseite, ein Artikel oder dergleichen. Der Inhalt, der unter Verwendung von bereits bestehendem Quellinhalt erzeugt wird, wird hierin allgemein als ein finaler Inhalt bezeichnet. Quellinhalt beschreibt allgemein bereits existierende Inhalte, zum Beispiel in einem Korpus. In dieser Hinsicht kann der Quellinhalt zum Beispiel eine breite Vielfalt von Dokumenten umfassen, welche sich im Internet oder in einem Datenspeicher befinden.
Auf einer hohen Ebene wird ein finaler Inhalt erzeugt unter Verwendung von einem bereits existierenden Quellinhalt von einem Korpus, welcher, nachdem er abgerufen wurden, geparst, abgebildet, gewichtet und komprimiert wird, um einen Kandidateninhalt zu bilden, allgemein in der Form eines Satzes. Ein Kandidateninhalt bezieht sich, wie hierin verwendet, allgemein auf einen neu erstellten Inhalt, der in dem finalen Inhalt verwendet werden mag. Ein Kandidateninhalt ist hierin allgemein beschrieben als ein Kandidatensatz, der konstruiert wird unter Verwendung einer Graphen-basierten Komprimierung ähnlicher Sätze aus dem Quellinhalt. Kandidateninhalt kann jedoch verschiedene andere Inhaltsfragmete sein und es ist nicht beabsichtigt, diesen auf einen Satz zu beschränken. Weiter können Kandidateninhalte auf verschiedene Weisen erzeugt werden. Wie hierin beschrieben kann der Kandidateninhalt verschiedene Aspekte des von dem Autor eingegebenen Schnipsels abdecken. Der Kandidateninhalt kann dann gewichtet und sequenziert werden, um einen kohärenten finalen zu Inhalt erzeugen, welchen der Autor dann verwenden und/oder überarbeiten kann, um eine akzeptable finale Version des Inhalts zu erhalten.
Lediglich als ein Beispiel sei angenommen, dass ein Autor, wie etwa ein Angestellter eines Firmenunternehmens, mehr über spezifische Firmenregeln und - Vorschriften bezüglich einer Aktivität oder einer Aufgabe, welche der Angestellte vollbringen muss, lernen möchte und einen einzelnen Inhalt erstellen möchte, welcher die Information über die spezifischen Regeln und Vorschriften enthält. Es sei auch angenommen, dass die Information, welche der Angestellte wiederverwerten möchte, um den finalen Inhalt über die Regeln und Vorschriften zu erstellen, als Quellinhalt in dem Korpus des Firmenunternehmens in verschiedenen Manifestationen über verschiedene Dokumente hinweg vorliegt. In einem derartigen Fall gibt der Angestellte ein Schnipsel ein (zum Beispiel einen Satz, eine Phrase oder ein Schlüsselwort), das sich auf die Regeln und Vorschriften bezieht, zu denen der Angestellte etwas erfahren möchte. Nach Erhalten des Schnipsels wird das Bedürfnis des Autors extrahiert, um eine Abfrage zu formulieren. Die Abfrage kann dann verwendet werden, um Quellinhalt in dem Korpus des Firmenunternehmens zu identifizieren und abzurufen, der relevant ist für das eingegebene Schnipsel (zum Beispiel der Satz, die Phrase oder das Schlüsselwort, der bzw. die bzw. das sich auf die spezifischen Regeln und Vorschriften bezieht, über die der Angestellte etwas erfahren möchte). Der abgerufene Quellinhalt, welcher die Information zu den Regeln und Vorschriften enthält, wird dann in Sätze geparst, auf einen Auswahlgraph abgebildet und gewichtet. Danach werden die Sätze weiter in Wort-Token geparst, auf einen Kompressionsgraph abgebildet und gewichtet. Die abgebildeten Wort-Token werden dann in Kandidateninhalte komprimiert, wie etwa in Kandidatensätze, zur Aufnahme in der finalen Inhaltsausgabe. Die erzeugten Kandidateninhalte können sich jeweils unterscheiden und können unterschiedliche Informationen aus dem Quellinhalt, der für die gewünschten Regeln und Vorschriften relevant ist, enthalten. Derartige Kandidateninhalte werden dann gewichtet und sequenziert, um einen finalen, kohärenten Inhalt auszugeben, der die Regeln und Vorschriften betrifft.
Mit Bezug wieder auf 1 kann die Benutzervorrichtung 104 im Betrieb über ein Netzwerk 108 (zum Beispiel ein LAN oder das Internet) auf das Inhalt-Erzeugungswerk 102 zugreifen. Die Benutzervorrichtung 104 kann zum Beispiel über das Netzwerk 108 Daten an das Inhalt-Erzeugungswerk 106 bereitstellen oder von diesem erhalten. Das Netzwerk 108 kann mehrere Netzwerke oder ein Netz von Netzwerken umfassen, ist aber in einfacher Form dargestellt, um keine Aspekte der vorliegenden Offenbarung zu verdunkeln. Als ein Beispiel kann das Netzwerk 108 ein oder mehrere Weitbereichsnetzwerke (WANs), ein oder mehrere lokale Netzwerke (LANs), ein oder mehrere öffentliche Netzwerke, wie etwa das Internet, und/oder ein oder mehrere private Netzwerke umfassen. Netzwerkumgebungen sind allgegenwärtig in Büros, unternehmensweiten Computernetzwerken, Intranetzen und dem Internet. Dementsprechend wird das Netzwerk 108 nicht näher beschrieben.
Eine Benutzervorrichtung, wie etwa die Benutzervorrichtung 104, kann jede Rechnervorrichtung sein, die eingerichtet ist, es einem Benutzer zu ermöglichen, ein Schnipsel bereitzustellen. Ein Schnipsel, wie hierin verwendet, bezieht sich allgemein auf ein von einem Autor eingegebenes Textelement, das ein Indikator für die Absicht des Autors ist. In dieser Hinsicht kann ein Schnipsel viele Formen annehmen, wie zum Beispiel ein Wort, eine Phrase, ein Satz, ein Absatz, eine Menge von Schlüsselwörtern oder dergleichen. Das Schnipsel kann analysiert werden, um eine Abfrage zu formulieren, um Quellinhalt aus einem Korpus zu identifizieren und abzurufen. Ein Benutzer kann zum Beispiel über einen Browser oder eine Anwendung, die auf der Benutzervorrichtung 104 installiert ist, dem Inhalt-Erzeugungswerk 102 einen Schnipsel bereitstellen. Weiterhin kann jede Art von Benutzerschnittstelle verwendet werden, um ein solches Schnipsel einzugeben. In einigen Fällen kann ein Benutzer ein Schnipsel zum Beispiel durch Tippen eingeben, oder indem ein Schnipsel kopiert/eingesetzt wird.
In Antwort auf das Bereitstellen eines Schnipsels kann die Benutzervorrichtung 104 einen finalen Inhalt oder einen Teil davon erhalten und darstellen. In dieser Hinsicht kann ein finaler Inhalt, der in Antwort auf das von dem Benutzer bereitgestellte Schnipsel erzeugt wurde, der Benutzervorrichtung bereitgestellt werden zur Anzeige für einen Benutzer (zum Beispiel über einen Browser oder eine Anwendung, die auf der Benutzervorrichtung 104 installiert ist).
In einigen Fällen greift die Benutzervorrichtung 104 über einen Webbrowser, ein Terminal oder eine eigenständige PC Anwendung, die auf der Benutzervorrichtung lauffähig ist, auf das Inhalt-Erzeugungswerk 102 zu. Die Benutzervorrichtung 104 kann von einem Administrator bedient werden, der ein Individuum/Individuen sein kann bzw. können, welche(r) Inhalt(e) verwaltet, die mit einem Dokument, einer Webseite, einer Anwendung oder dergleichen assoziiert sind. Zum Beispiel kann ein Benutzer ein Individuum sein, wie etwa ein Autor oder Verleger, der mit einer Entität assoziiert ist, welche den Inhalt publiziert (zum Beispiel über das Internet). Auch wenn in 1 nur eine Benutzervorrichtung 104 gezeigt ist, kann eine beliebige Anzahl Benutzervorrichtungen verwendet werden, die mit einer beliebigen Anzahl von Benutzern assoziiert sind, um hierin beschriebene Ausführungsformen auszuführen. Die Benutzervorrichtung 104 kann verschiedene Formen annehmen, wie etwa ein PC, ein Laptopcomputer, ein Mobiltelefon, ein Tablet Computer, ein tragbarer Computer, ein persönlicher digitaler Assistent (PDA), ein MP3 Abspielgerät, eine GPS Vorrichtung, ein Videogerät, ein digitaler Videorekorder (DVR), ein Kabelempfangsgerät, eine Set-Top-Box, eine handgehaltene Kommunikationsvorrichtung, ein Smartphone, eine Smartwatch, ein Arbeitsplatzrechner, eine Kombination dieser dargelegten Vorrichtungen oder eine andere geeignete Vorrichtung. Weiter kann die Benutzervorrichtung 104 einen oder mehrere Prozessoren und ein oder mehrere computerlesbare Medien beinhalten. Die computerlesbaren Medien können computerlesbare Anweisungen enthalten, welche von dem einen oder den mehreren Prozessoren ausgeführt werden können.
Der Datenspeicher 106 (zum Beispiel Korpus) beinhaltet, neben anderen Daten, Quellinhaltsdaten, welche von einem Autor gewünschte Informationen beinhalten können, die verwendet werden, um die Erzeugung von Kandidateninhalten und die Erzeugung von finalen Inhalten ermöglichen. Wie nachstehend in größerem Detail beschrieben kann der Datenspeicher 106 Quellinhaltsdaten beinhalten, die elektronische, textliche Inhalte enthalten, wie ein Dokument, eine Webseite, einen Artikel oder dergleichen, und/oder damit assoziierte Metadaten. Solche Quellinhaltsdaten können in dem Datenspeicher 106 gespeichert sein und von einer Komponente des Systems 100 abgerufen werden. Der Datenspeicher mag auch jederzeit aktualisiert werden, einschließlich einer Vergrößerung oder Verkleinerung der Menge an Quellinhaltsdaten oder einer Vergrößerung oder Verkleinerung der Menge an Inhalten in dem Datenspeicher, die nicht für das von dem Autor eingegebene Schnipsel relevant sind. Weiter mögen zu jeder Zeit Informationen, die in den verschiedenen Dokumenten in dem Korpus abgedeckt werden, geändert oder aktualisiert werden.
Das Inhalt-Erzeugungswerk 102 ist allgemein konfiguriert, um Kandidateninhalte (zum Beispiel Sätze) aus existierendem Quellinhalt zu erzeugen, und danach solche Kandidateninhalte zu verwenden, um einen kohärenten finale Inhalt zu bilden. Das Inhalt-Erzeugungswerk 102 kann insbesondere Quellinhalt abrufen, den Quellinhalt parsen und in Kandidatensätze komprimieren, und Kandidatensätze in einen kohärenten finalen Inhalt assemblieren. In einer Implementierung, und auf einer hohen Ebene, formuliert das Inhalt-Erzeugungswerk 102 eine Abfrage, um Quellinhalt aus einem Korpus zu identifizieren und abzurufen. Insbesondere kann das Inhalt-Erzeugungswerk 102 die Absicht eines Autors aus einem von dem Autor eingegebenen Schnipsel extrahieren und die Absicht es Autors verwenden, um die Abfrage zu formulieren. Die Abfrage identifiziert dann den Quellinhalt von dem Korpus und ruft diese ab. Der abgerufene Quellinhalt wird dann geparst und komprimiert, um Kandidatensätze zu generieren. Die Kandidatensätze werden dann sequenziert, um eine kohärente finale Inhaltsausgabe zu erzeugen.
Ein beispielhaftes Inhalt-Erzeugungswerk ist in 2 bereitgestellt. Wie in 2 gezeigt, beinhaltet ein Inhalt-Erzeugungswerk 200 einen Quellinhalt-Abrufmanager 202, einen Kandidateninhalt-Erzeugungsmanager 204, und einen Final-Inhalt-Erzeugungsmanager 206. Der Quellinhalt-Abrufmanager 202 ermöglicht allgemein das Abrufen bereits existierenden Quellinhalts von dem Korpus. Der Kandidateninhalt-Erzeugungsmanager 204 verwendet den bereits existierenden Quellinhalt (zum Beispiel mittels Graphen-basierter Satzkomprimierung), um Kandidateninhalte zu generieren. Der Final-Inhalt-Erzeugungsmanager 206 verwendet allgemein die Kandidateninhalte, um einen finalen Inhalt zu erzeugen, beispielsweise zur Ausgabe an eine Benutzervorrichtung. Ein solcher finaler Inhalt vermittelt relevante Information vorteilhafterweise auf eine kohäsive und nicht redundante Weise.
Auch wenn sie als separate Komponenten des Inhalt-Erzeugungswerks 200 dargestellt sind, kann jede Anzahl an Komponenten verwendet werden, um die hierin beschriebene Funktionalität auszuführen. Zudem können, auch wenn sie als ein Teil eines Inhalt-Erzeugungswerks gezeigt sind, die Komponenten über eine Anzahl von Vorrichtungen verteilt sein. Beispielsweise kann ein Quellinhalt-Abrufmanager bereitgestellt werden mit einer Vorrichtung, einem Server oder einem Servercluster, während der Kandidateninhalt-Erzeugungsmanager mit einer anderen Vorrichtung, einem anderen Server oder einem anderen Servercluster bereitgestellt werden kann. Die hierin identifizierten Komponenten werden lediglich als Beispiele angegeben, um die Beschreibung der Funktionalität zu vereinfachen oder klarer zu machen. Andere Anordnungen und Elemente (zum Beispiel Maschinen, Schnittstellen, Funktionen, Reihenfolgen und Gruppierungen von Funktionen etc.) können zusätzlich zu oder anstelle der gezeigten verwendet werden, und einige Elemente mögen vollständig ausgelassen werden. Weiter sind viele der hierin beschriebenen Elemente funktionelle Entitäten, die als diskrete oder verteilte Komponenten oder in Verbindung mit anderen Komponenten, und in jeder geeigneten Kombination und an jedem geeigneten Ort implementiert sein können. Verschiedene Funktionen, welche hierin als von einer oder von mehreren Komponenten ausgeführt beschriebene sind, können durch Hardware, Firmware und/oder Software ausgeführt werden. So können zum Beispiel verschiedene Funktionen von einem Prozessor ausgeführt werden, welcher in einem Speicher gespeicherte Anweisungen ausführt.
Wie beschrieben ist der Quellinhalt-Abrufmanager 202 allgemein konfiguriert, von einem Korpus abgerufenen Quellinhalt zu sammeln, die zur Erzeugung von Kandidateninhalt verwendet werden sollen. Ein Quellinhalt-Manager 202 kann einen Schnipselsammler 212, einen Abfragenformulierer 214, und einen Quellinhalt-Erhalter 216 beinhalten. Auch wenn diese als separate Komponenten des Quellinhalt-Abrufmanagers 202 gezeigt sind, kann eine beliebige Anzahl an Komponenten verwendet werden, um die hierin beschriebene Funktionalität auszuführen.
Der Schnipselsammler 212 ist konfiguriert, einen Schnipsel zu sammeln oder zu erhalten, welches zum Beispiel über einen Benutzer (zum Beispiel ein Autor) eingegeben wird. Wie beschrieben kann ein Schnipsel Schlüsselwörter, Phrasen und Sätze sein, ist aber nicht auf diese textlichen Anordnungen beschränkt. Ein Schnipsel kann auf beliebige Weise gesammelt oder erhalten werden. In einigen Fällen wird ein Schnipsel von einem Benutzer des Inhalt-Erzeugungswerks, wie etwa einem Autor von Unternehmensinhalten, bereitgestellt. In dieser Hinsicht kann ein Autor von Unternehmensinhalten oder eine Gruppe von Autoren einen Schnipsel beispielsweise über eine graphische Benutzerschnittstelle eintragen oder eingeben, auf welche über eine Anwendung auf einer Benutzervorrichtung zugegriffen werden kann. AI sein Beispiel mag ein Benutzer ein Schnipsel über eine Benutzervorrichtung 104 von 1 eingeben, welche mit dem Netzwerk 108 verbunden ist. Zum Beispiel mag ein Autor von Unternehmensinhalten beispielsweise ein Schlüsselwort, einen Satz oder eine Phrase eingeben.
Der Abfragenformulierer 214 ist konfiguriert, die Absicht des Benutzers (das heißt, das Bedürfnis des Autors) aus dem eingegebenen Schnipsel zu identifizieren oder zu extrahieren. In Übereinstimmung mit der Absicht des Benutzers kann der Abfragenformulierer 214 eine Abfrage formulieren, um einen Quellinhalt von dem Korpus zu identifizieren und abzurufen, der für den Schnipsel relevant ist. Um die Absicht des Benutzers zu identifizieren kann eine Menge von Schlüsselwörtern aus dem eingegebenen Schnipsel extrahiert oder in diesem identifiziert werden. In Ausführungsformen kann eine bestbewertete Menge von einem oder mehreren Schlüsselwörtern „K“ in dem Schnipsel extrahiert werden unter Verwendung einer inversen Dokumentenhäufigkeit („inverse document frequency“, IDF) der Worte in dem Korpus. Ein solcher Ansatz kann die signifikantesten Schlüsselwörter in dem Schnipsel mit Bezug auf den Korpus erfassen. Nachdem eine Menge von Schlüsselwörtern erhalten wurde, kann eine Abfrage erzeugt werden, indem solche Schlüsselwörter oder eine Teilmenge davon aneinandergereiht werden.
Wie verstanden werden wird, kann die Anzahl an ausgewählten Schlüsselwörtern die Relevanz und die Menge an Quellinhalt, welcher verfügbar ist und abgerufen wird, beeinflussen. Ein kleinerer Wert von K Schlüsselwörtern kann zur Folge haben, dass die Abfrage den Quellinhalt in dem Korpus unterrepräsentiert, und eine größere Menge an Quellinhalt abrufen, die für den eingegebenen Schnipsel nicht sehr relevant sein mag. Ein höherer Wert von K Schlüsselwörtern kann in einer spezifischeren Abfrage resultieren, die nicht so viel Quellinhalt von dem Korpus abruft. Weiter wird in Ausführungsformen eine Begriffshäufigkeit in einem Satz, einer Phrase oder dergleichen des Schnipsels beim Gewichtungsprozess für die Auswahl von K nicht berücksichtigt, da die meisten Begriffe in einem Schnipsel nur einmal vorkommen und ein mehrfaches Auftreten nicht vorsätzlich sein mag, sondern auf Zufall oder Irrtum beruhen kann und daher irreführend sein mag.
Der Quellinhalt-Erhalter 216 ist allgemein konfiguriert, Quellinhalt oder Inhaltsfragmente zu erhalten, der bzw. die für die erzeugte Abfrage relevant sind. Das heißt, der Quellinhalt-Erhalter 216 verwendet die Abfrage, um relevanten Quellinhalt (zum Beispiel von einem Korpus) zu erhalten. Solcher Quellinhalt kann aus einer Anzahl von Quellen erhalten werden, wie etwa verschiedenen verteilten Quellen. Wie hierin beschrieben hat die Wahl von K Einfluss auf die relevante Menge an Quellinhalt, die durch den Quellinhalt-Erhalter 216 in dem Korpus identifiziert werden und von dem Korpus abgerufen werden durch den Quellinhalt. Beispielsweise, mit Bezug wieder auf den angestellten Autoren, der einen Inhalt bezüglich der spezifischen Firmenregeln und -vorschriften erstellen möchte, mag ein größerer Wert von K in einer spezifischeren Abfrage resultieren, die weniger und enger zugeschnittenen Quellinhalt von dem Korpus bezüglich allein der Regeln oder Vorschriften, die der Autor spezifiziert hat, abrufen mag. Ein geringerer Wert von K mag jedoch darin resultieren, dass die Abfrage den Quellinhalt in dem Korpus unterrepräsentieren mag und Quellinhalt abruft, welcher zusätzlich zu den von dem Autor gewünschten Regeln und Vorschriften weitere Informationen abdeckt, welche beispielsweise andere Firmenregeln und -vorschriften abdeckt, welche der Autor nicht zu erfahren oder darüber einen Inhalt zu erstellen beabsichtigt.
Wie beschrieben ist der Kandidateninhalt-Erzeugungsmanager 204 allgemein konfiguriert, Kandidateninhalte zu erzeugen durch Komprimieren von identifiziertem und abgerufenem Quellinhalt von einem Korpus. Ein Kandidateninhalt-Erzeugungsmanager 204 kann einen Quellinhalt-Parser 220, einen Satzabbilder 222, einen Satzparser 224, einen Wort-Token-Abbilder 226, einen Belohnungszuweiser 228, einen Inhalt-Komprimierer 230 und einen Inhalt-Sammler 232. Auch wenn diese als separate Komponenten des Kandidateninhalt-Erzeugungsmanagers 204 gezeigt sind, kann jede Anzahl an Komponenten verwendet werden, um die hierin beschriebene Funktionalität auszuführen.
Der Quellinhalt-Parser 220 ist konfiguriert, den Quellinhalt oder die Inhaltsfragmente zu parsen, welche von dem Quellinhalt-Abrufer 218 abgerufen wurden. In Ausführungsformen kann der abgerufene Quellinhalt in Sätze geparst werden. In dieser Hinsicht zerlegt der Quellinhalt-Parser 220 den abgerufenen Quellinhalt in einzelne Sätze, um die Sätze in einer Form zu strukturieren, welche geeignet ist, um die Sätze abzubilden. Auch wenn allgemein als das Parsen des Inhalts in Sätze beschrieben können, wie verstanden werden wird, andere Inhaltsfragmente verwendet werden, um den Quellinhalt zu parsen.
Der Satzabbilder 222 bildet allgemein die Sätze auf einen ersten Graphen ab, hierein als ein Auswahlgraph bezeichnet. Insbesondere können die Sätze graphisch repräsentiert werden unter Verwendung einer Knotennotation, in welcher jeder Satz durch einen Knoten auf dem Auswahlgraph repräsentiert wird.
Der Belohnungszuweiser 228 weist jedem Knoten auf dem Auswahlgraphen eine anfängliche Belohnung (das heißt, eine Kontengewichtung) zu. In Ausführungsformen kann eine anfängliche Belohnung oder anfängliches Gewicht, die bzw. das einem Knoten zugewiesen wird, auf der Ähnlichkeit des Knotens zur Abfrage basieren. Zusätzlich oder alternativ kann eine anfängliche Belohnung oder anfängliches Gewicht, die bzw. das dem Knoten zugewiesen wird, auf der Menge an Information basieren, welche in dem Satz vorhanden ist, welcher mit dem Knoten assoziiert ist. So mag zum Beispiel eine höhere Belohnung anzeigen, dass der Satz multiple Konzepte umfasst, anstatt ein einzelnes Konzept oder Thema. Die Kanten zwischen Paaren von Knoten können auch mit einem Kantengewicht verwehen werden, welches auf einer Informationsüberlappung zwischen den entsprechenden Knoten basiert.
Der Satzparser 224 ist allgemein konfiguriert, die Sätze in Wort-Token zu parsen. In dieser Hinsicht zerlegt der Satzparser 224 die Satz-Token in einzelne Wort-Token, damit die Wörter in einer Form sind, die für den Wort-Token-Abbilder 226 geeignet sind, um die Wort-Token auf einen zweiten Graphen abzubilden, der allgemein als ein Kompressionsgraph bezeichnet wird. Insbesondere wählt der Satzparser iterativ einen Teilgraphen (das heißt, einen Teil) des Auswahlgraphen zum Parsen aus. Der Teil des Auswahlgraphen, der zum Parsen und Komprimieren ausgewählt ist, kann der Teil oder die Menge von Sätzen sein, welche als ein am meisten lohnender Teil des Auswahlgraphen identifiziert wurde. Das heißt, ein Teil des Auswahlgraphen, welcher Knoten enthält, die eng miteinander in Beziehung stehen, kann zur Satzkomprimierung identifiziert werden. In einer Ausführungsform kann ein ausgewählter Teilgraph einen Knoten enthalten, zusammen mit dessen 1-Hop und 2-Hop Nachbarn. In einem solchen Fall können die Sätze, die einem solchen Knoten entsprechen, in Wort-Token geparst werden. Allein als ein Beispiel werden der Knoten mit dem maximalen Gewinn, zusammen mit dem Satz, der diesem Konten entspricht, sowie die Sätze in der 1-Hop und 2-Hop Nachbarschaft des Knotens ausgewählt und in eine Menge „S“ gegeben, welche dann verwendet werden kann für die erste Iteration der Multi-Satz-Komprimierung. Mit anderen Worten werden der Knoten auf dem Auswahlgraph, dessen entsprechender Satz und die entsprechenden 1-Hop oder 2-Hop Nachbarn ausgewählt und in Wort-Token geparst. Eine iterative Satz-Knoten-Auswahl kann zum Beispiel stattfinden, indem zuerst der Konten auf dem Auswahlgraph mit dem maximalen Gewinn ausgewählt wird, was ausgedrückt werden kann als: $G_{v_{l}}^{l} = r_{i}^{l - 1} + \sum_{v_{j} \in N_{i}} r_{j}^{l - 1} \times w_{i j}$
wobei der Auswahlgraph als G(v,e) gegeben ist, jeder Knoten auf dem Auswahlgraph, der einen Satz aus dem Quellinhalt repräsentiert, als v_i ∈ V in dem Graphen gegeben ist, die anfängliche Belohnung als r^o _i für v_i gegeben ist, Ni sich auf die Nachbarn des Knotens vi bezieht, das Kantengewicht zwischen jedem Paar von Satzknoten als w_ij gegeben ist, der Gewinn als G_vi gegeben ist, und wobei I der Schritt ist, in welchem ein anfänglicher Satzknoten v*_i ausgewählt wird, welcher den maximalen Gewinn G_vi hat. Beim Parsen der Sätze in Wörter bildet der Wort-Token-Abbilder 226 die tokenisierten Wörter auf einen zweiten Graphen ab, hierin allgemein als ein Kompressionsgraph bezeichnet. In Ausführungsformen werden die Wörter unter Verwendung einer Knotennotation repräsentiert, in welcher jedes Wort durch einen Knoten auf dem Kompressionsgraphen repräsentiert wird, und jeder Satz einen gerichteten Graphen in dem Kompressionsgraph repräsentiert. Spezialisierte Knoten dienen als Satzanfangs- und Satzende-Knoten. Ein einzelner Knoten, der auf den Kompressionsgraph abgebildet ist, kann jedes Auftreten eines Worts innerhalb desselben Part-of-Speech (POS) Tags repräsentieren.
Der Belohnungszuweiser 228 kann ein Kantengewicht zwischen jedem Paar von Wortknoten zuweisen. Ein solches Gewicht kann die Beziehung der Worte miteinander repräsentieren. Das Kantengewicht kann zum Beispiel die Anzahl repräsentieren, wie oft die geordnete Kombination dieser zwei Worte über alle Sätze in der Menge S auftritt. Die kürzesten Pfade (normalisiert durch die Pfadlänge) kann identifiziert werden und die bestbewerteten K erzeugten Sätze können zur weiteren Verarbeitung verwendet werden, wie nachstehend beschrieben.
Der Inhalt-Komprimierer 230 ist allgemein konfiguriert, Kandidateninhalte aus dem Kompressionsgraphen zu generieren. Dementsprechend kann der Inhalt-Komprimierer 230 Pfade identifizieren, wie etwa kürzeste Pfade (normalisiert nach Pfadlängen), auf dem Kompressionsgraphen, und diese Pfade in Kandidateninhalt komprimieren, wie etwa einen Kandidatensatz bzw. -sätze. Ein Kandidateninhalt, der von dem Inhalt-Komprimierer 230 erzeugt wird, ist allgemein ein Inhalt, welcher die Information abdeckt, die in der Menge von Sätzen enthalten ist, aus welcher der Kandidateninhalt erzeugt wurde. In einer Ausführungsform werden die kürzesten Pfade identifiziert und die K bestbewerteten erzeugten Sätze werden identifiziert für die Komprimierung. In einer Implementierung kann zum Beispiel die minimale Anzahl an Worten pro erzeugtem Satz auf 10 Worte beschränkt sein, wobei bei jeder Iteration ein Satz ausgewählt wird. Ein solches Traversieren dieses Pfads resultiert in der Erzeugung des geeignetsten Satzes basierend auf gleichzeitigem Auftreten in dem Korpus. Allgemein liefert die Verwendung eines kürzesten Pfads eine komprimierte Form von Inhalt, wie etwa einem Satz, welcher Information aus mehreren Sätzen erfasst.
In Übereinstimmung mit dem Ausführen der Inhaltskomprimierung kann der Belohnungszuweiser 228 Belohnungen oder Gewichte zuweisen. In dieser Hinsicht kann eine Belohnung (das heißt, ein Gewicht) einem komprimierten Kandidatensatz zugewiesen werden basierend auf dessen Ähnlichkeit zu der Abfrage. Um die Information zu berücksichtigen, welche von jedem Satz erfasst wird, welcher in einen Kandidatensatz komprimiert ist zur nachfolgenden Auswahl eines Teilgraphen in dem Auswahlgraph kann der Belohnungszuweiser 228 die Belohnungen der Ecken in dem Auswahlgraph aktualisieren, deren Informationsüberlappung mit dem bereits erzeugten Kandidateninhalt signifikant ist (oder einen Schwellenwert überschreitet). Dies verringert die Belohnungen für Sätze, welche von einer gegenwärtigen Menge an erzeugten Kandidatensätzen abgedeckt ist, wodurch die Wahrscheinlichkeit verringert wird, dass dieselbe Information, welche bereits in dem erzeugten Kandidateninhalt enthalten ist, in nachfolgend erzeugten Kandidaten enthalten ist. Insbesondere stellt dies sicher, dass die Information, welche bei der nachfolgenden Erzeugung von Kandidatensätzen abgehandelt wird, sich davon unterscheidet, was bereits erzeugt wurde, während sichergestellt wird, dass die Informationsabdeckung der nachfolgend erzeugten Kandidatensätze weiterhin für die eingegebene Abfrage relevant ist.
Der Inhalt-Sammler 232 ist allgemein konfiguriert, eine Menge von Kandidateninhalten zu sammeln. In dieser Hinsicht kann der Inhalt-Sammler 232 erzeugten Kandidateninhalt nach jeder Iteration der Komprimierung sammeln. Vorteilhafter Weise deckt der erzeugte Kandidateninhalt, wie etwa Sätze, allgemein den Informationsraum auf, welcher für das eingegebene Schnipsel relevant ist. Wie verstanden werden wird kann jede beliebige Menge an Kandidateninhalt erzeugt und gesammelt werden. So kann zum Beispiel Kandidateninhalt erzeugt und gesammelt werden, bis eine Schwellwertmenge an Kandidatensätzen erzeugt wurde. Als ein anderes Beispiel mag die Erzeugung von Kandidateninhalt fortschreiten, bis es keine Knoten mit einer signifikanten Belohnung mehr gibt, was in nachfolgenden Iterationen dazu führt, dass derselbe Teilgraph für die Komprimierung ausgewählt wird.
Da der komprimierte Kandidateninhalt zunächst nicht grammatikalisch korrekt und/oder nicht geordnet sein mag, kann der Final-Inhalt-Erzeugungsmanager 206 einen kohärenten finalen Inhalt erzeugen. Der Final-Inhalt-Erzeugungsmanager 206 kann einen Satzsequenzierer 234 und einen Finalinhaltgenerator 236 beinhalten.
Der Satzsequenzierer ist allgemein konfiguriert, den Kandidateninhalt in einen kohärenten finalen Inhalt zu sequenzieren (das heißt, zusammenzufügen, zu organisieren). In Ausführungsformen kann der Satzsequenzierer 234 den Kandidateninhalt sequenzieren, indem eine geeignete Menge an komprimiertem Inhalt (zum Beispiel Sätze) für die Sequenzierung ausgewählt wird, zusammen mit deren Reihenfolge, mittels einer Formulierung als ganzzahlige lineare Optimierung (gemischt-ganzzahlige Optimierung, „Mixed Integer Program“, MIP)). Das Problem der ganzzahligen linearen Optimierung kann gegeben sein als: $J = \sum_{i = 1}^{K} w_{i} x_{i} + λ \sum_{i, j | c o h_{i, j} > σ} c o h_{i, j} y_{i, j}$
So dass: $\sum_{i = 1}^{K} c_{i} x_{i} \leq B$
$y_{i, j} = 0 wenn c o h_{i, j} < σ oder i = j$
$x_{i} + x_{j} \leq 1, \forall i, j | s i m_{i, j} > 0,7$
$\begin{matrix} \sum_{i} y_{s, i} = 1, & \sum_{i} y_{i, e} = 1 \end{matrix}$
$\sum_{i} y_{i, j} = \sum_{i} y_{j, i}$
$\sum_{i} y_{i, j} + \sum_{i} y_{j, i} = 2 x_{j}$
wobei die Binärvariable x_i die Auswahl/Nicht-Auswahl eines komprimierten Satzes i anzeigt und die Binärvariable y_i,j eine Transition von einem Satz x_i und x_j anzeigt. Das Durchschreiten des Pfades der Sätze über y_i,j würde den finalen erzeugten Satz ergeben. Das w_i für jeden komprimierten Satz zeigt eine Kombination der Relevanz des Satzes für das Schnipsel zusammen mit dessen gesamter sprachlicher Qualität an. Dies stellt sicher, dass der ausgewählte komprimierte Satz nicht verrauscht und für das Schnipsel relevant ist. Der zweite Ausdruck in Gleichung 2 maximiert die Kohärenz des ausgewählten Flusses an Sätzen. Die Bedingung in Gleichung 3 berücksichtigt die Längenanforderung des Autors, um den erzeugten Inhalt auf ein Zielbudget B zu beschränken. Die Gleichung 4 verbietet einen Fluss von Inhalt zwischen weniger kohärenten Sätzen und vermeidet Zyklen in den Bögen. Ein Bogen zwischen zwei Knoten existiert, wenn beide Sätze für den finalen Inhalt ausgewählt sind und zusammenhängend sind. Die Gleichung 6 beschränkt die Anzahl an Startsätzen und Endsätzen auf 1. Die Gleichungen 7 und 8 beschränken die Anzahl an eingehenden und ausgehenden Bögen eines ausgewählten Knotens auf jeweils 1, wodurch ein Pfad über die Bögen erzwungen wird, welcher den Fluss in dem ausgewählten Inhalt anzeigen kann.
Der Finalinhaltbereitsteller 236 ist allgemein konfiguriert, die sequenzierte Menge an Kandidateninhalt auszugeben, zum Beispiel an eine Benutzervorrichtung. Als ein Beispiel ist der Finalinhaltbereitsteller 236 konfiguriert, den sequenzierten Inhalt, in einigen Fällen, an den Autor auszugeben, welcher das Schnipsel eingegeben hat. Hierin beschriebene Ausführungsformen ermöglichen die Erzeugung des finalen Inhalts, welcher die Redundanz verringert, welche ohne den Inhalt enthalten ist, die Gesamtkohärenz des Inhalts erhöht und die gesamte Informationsabdeckung des Inhalts erhöht. Insbesondere wird die Inhaltskomprimierung (Multi-Satz-Komprimierung) verwendet, um redundante Information in dem Kandidateninhalt zu verringern durch Komprimieren von Information aus mehreren Sätzen in einen einzelnen Satz. Eine Graphen-basierte Kandidatenauswahl für die Komprimierung ermöglicht, verschiedene Aspekte um die finale Inhaltsausgabe abzudecken. Schließlich ermöglicht die Verwendung einer Formulierung als ganzzahlige lineare Optimierung Kohärenz in dem ausgegebenen finalen Inhalt.
Ein beispielhafter Algorithmus zur Erzeugung eines Inhalts basierend auf einem eingegebenen Schnipsel kann wie folgt ausgedrückt werden:
Mit Bezug nun auf 3 ist ein Flussdiagramm gezeigt, welches in beispielhaftes Verfahren 300 zum Abrufen von Quellinhalt von einem Korpus zeigt, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung. In Ausführungsformen wird das Verfahren 300 von einem Inhalt-Erzeugungswerk ausgeführt, wie etwa dem Inhalt-Erzeugungswerk 200 von 2. Zu Beginn wird, wie bei Block 302 angegeben, ein von einem Autor eingegebenes Schnipsel erhalten. Ein von einem Autor eingegebenes Schnipsel kann Schlüsselwörter, Sätze, eine Phrase oder dergleichen enthalten. Beim Block 304 wird ein Bedürfnis des Autors, das mit dem vom Autor eingegebenen Schnipsel assoziiert ist, extrahiert. In einigen Fällen zeigt das Bedürfnis des Autors eine Absicht des Autors an. Danach wird bei Block 306 eine Abfrage basierend auf dem extrahierten Bedürfnis des Autors formuliert, um bereits existierenden Quellinhalt in einem Korpus zu identifizieren, der für das von dem Autor eingegebene Schnipsel relevant ist. Bei Block 308 wird der identifizierte bereits existierende Quellinhalt in einem Korpus abgerufen zur weiteren Verarbeitung. Wie beschrieben bezieht sich Quellinhalt auf elektronischen textlichen Inhalt, wie etwa ein Dokument, eine Webseite, Artikel oder dergleichen.
Mit Bezug auf 4 ist ein Flussdiagramm gezeigt, das ein beispielhaftes Verfahren 400 Erzeugung Kandidatensätze unter Verwendung von Multi-Satz-Komprimierung zeigt, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung. In Ausführungsformen wird das Verfahren von 400 durch ein Inhalt-Erzeugungswerk ausgeführt, wie etwa das Inhalt-Erzeugungswerk 200 von 2. Zu Beginn, und wie beim Block 402 gezeigt, wird Quellinhalt von einem Korpus abgerufen. Bei Block 404 wird der Quellinhalt in Sätze geparst. Mit Bezug auf Block 406 werden die Sätze dann auf einen Auswahlgraphen abgebildet. Wie beschrieben werden die abgebildeten Satz-Token in Knotennotation abgebildet, wobei jeder Knoten einen einzelnen Satz repräsentiert. Bei Block 408 wird den abgebildeten Sätzen eine anfängliche Belohnung (das heißt, ein Gewicht) und ein Kantengewicht zugewiesen. n Ausführungsformen werden die Knoten, welche auf den Auswahlgraph abgebildet sind, basierend auf ihrer Ähnlichkeit zur Abfrage gewichtet, und den Kanten zwischen jedem Knotenpaar werden basierend auf deren Informationsüberlappung ein Kantengewicht zugewiesen. Bei Block 410 werden die Sätze von dem Auswahlgraphen in Wort-Token geparst. Bei Block 412 werden die Wort-Token auf einen Kompressionsgraphen abgebildet. In Ausführungsformen werden tokenisierte Wörter unter Verwendung einer Knotennotation repräsentiert, in welcher jedes Wort durch einen Knoten auf dem Kompressionsgraphen repräsentiert wird, und jeder Satz repräsentiert einen gerichteten Pfad in dem Kompressionsgraph. Spezialisierte Knoten dienen als Satzanfangs- und Satzende-Knoten. Ein einzelner Knoten, der in dem Kompressionsgraph abgebildet ist, kann alle Vorkommen eines Wortes innerhalb desselben POS Tag repräsentieren. Mit Bezug auf Block 414 wird zwischen jedem Paar von Wort-Knoten ein Kantengewicht zugewiesen. Das Kantengewicht kann die Anzahl repräsentieren, wie oft die geordnete Kombination dieser Knoten-Worte in allen Sätzen in der Menge S auftreten. Die kürzesten Pfade (normalisiert nach der Pfadlänge) werden identifiziert, und die K bestbewerteten erzeugten Sätze werden für die weitere Verarbeitung verwendet. Bei Block 416 werden die abgebildeten Wort-Token in Kandidatensätze komprimiert, zur Verwendung in einem finalen Inhalt. Eine derartige Kandidatensatzerzeugung kann sich iterativ wiederholen, biss die gesamte relevante Information, die auf den Auswahlgraph abgebildet ist, erschöpft ist.
Mit Bezug nun auf 5 ist ein Flussdiagramm gezeigt, welches ein beispielhaftes Verfahren 500 des Sequenzierens von Kandidatensätze in einen finalen Inhalt zeigt, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung. In Ausführungsformen wird das Verfahren von 500 von einem Inhalt-Erzeugungswerk ausgeführt, wie etwa das Inhalt-Erzeugungswerk 200 von 2. Zunächst, und wie bei Block 502 angegeben, werden komprimierte erzeugte Kandidatensätze gesammelt. Bei Block 504 wird den Kandidatensätzen ein Gewicht zugewiesen. Wie beschrieben kann die Belohnung (das heißt, das Gewicht), das jedem komprimierten Kandidatensatz zugewiesen wird, auf dessen Ähnlichkeit zu der Abfrage basieren. Mit Bezug auf Block 506 werden die gewichteten Kandidatensätze sequenziert, um einen finalen Inhalt zu bilden. Der finale Inhalt enthält allgemein eine erhöhte Informationsabdeckung, verminderte Redundanz und einen kohärenten Fluss.
Mit Bezug auf 6 ist ein Flussdiagramm gezeigt, das ein beispielhaftes Verfahren 600 des Sequenzierens von Kandidatensätzen in einen finalen Inhalt zeigt, In Ausführungsformen wird das Verfahren 600 von einem Inhalt-Erzeugungswerk ausgeführt, wie etwa das Inhalt-Erzeugungswerk 200 von 2. Zunächst, und wie bei Block 602 angegeben, wird ein von einem Autor eingegebenes Schnipsel empfangen. Ein von einem Autor eingegebenes Schnipsel kann Schlüsselwörter, Sätze, eine Phrase oder dergleichen enthalten. Bei Block 604 wird das Bedürfnis, das mit dem von dem Autor eingegebenen Schnipsel assoziiert ist, extrahiert, um eine Abfrage zu extrahieren. Die Abfrage wird formuliert basierend auf dem extrahierten Bedürfnis des Autors, um bereits existierenden Quellinhalt in einem Korpus zu identifizieren, der für das von dem Autor eingegebene Schnipsel relevant ist. Bei Block 606 wird der identifizierte bereits existierende Quellinhalt in einem Korpus abgerufen zur weiteren Verarbeitung. Wie beschrieben bezieht sich Quellinhalt auf elektronischen textlichen Inhalt, wie etwa ein Dokument, eine Webseite, Artikel oder dergleichen. Mit Bezug auf Block 608, und wie hierin beschrieben, wird er abgerufene Quellinhalt geparst, abgebildet und gewichtet zu einem Auswahl- und Kompressionsgraph zur weiteren Verarbeitung und Kandidatensatzerzeugung. Insbesondere wird der Quellinhalt in Satz-Token geparst, welche dann auf einen Auswahlgraphen abgebildet werden. Die abgebildeten Satz-Token können in Knotennotation abgebildet werden, wobei jeder Knoten einen einzelnen Satz repräsentiert. Den abgebildeten Satz-Token werden dann eine anfängliche Belohnung (das heißt, ein Gewicht) und ein Kantengewicht zugewiesen, wobei die Knoten, die auf den Auswahlgraphen abgebildet sind, gewichtet werden basierend auf ihrer Ähnlichkeit zu der Abfrage, und den Kanten zwischen jedem Paar von Knoten wird ein Kantengewicht zugewiesen basieren auf deren Informationsüberlappung. Weiter werden die Sätze von dem Auswahlgraphen in Wort-Token geparst, die Wort-Token werden dann auf einen Kompressionsgraphen abgebildet. Die abgebildeten, tokenisierten Worte können unter Verwendung einer Knotennotation repräsentiert werden, wobei jedes Wort durch einen Knoten auf dem Kompressionsgraphen repräsentiert wird und jeder Satz durch einen gerichteten Graphen in dem Kompressionsgraphen repräsentiert wird. Ein einzelner Knoten, der auf den Kompressionsgraphen abgebildet ist, kann alle Vorkommen eines Wortes innerhalb desselben POS Tags repräsentieren. Es wird ein Kantengewicht zwischen jedem Paar von Wort-Knoten zugewiesen, wobei das Kantengewicht die Anzahl repräsentieren kann, wie oft die geordnete Kombination dieser Knoten-Worte über alle Sätze in der Menge S hinweg auftritt. Die kürzesten Pfade (normalisiert nach Pfadlänge) werden identifiziert und die K bestbewerteten erzeugten Sätze werden für die weitere Verarbeitung verwendet. Bei Block 610 werden Kandidatensätze erzeugt und gewichtet, wobei die Mehr-Satz-Komprimierung, die in der Kandidatensatzerzeugung resultiert, iterativ wiederholt wird, bis der gesamte relevante Quellinhalt, der auf den Auswahlgraphen abgebildet ist, erschöpft ist. Bei Block 612 werden die Kandidatensätze sequenziert in einen finalen Inhalt zur Ausgabe an einen Autor.
Nach der Beschreibung von Ausführungsformen der vorliegenden Erfindung wird im Folgenden eine beispielhafte Arbeitsumgebung beschrieben, in der Ausführungsformen der vorliegenden Erfindung verwirklicht werden können, um einen allgemeinen Kontext für verschiedene Aspekte der vorliegenden Erfindung zu schaffen. Insbesondere unter erstmaliger Bezugnahme auf 7 wird eine beispielhafte Arbeitsumgebung zur Umsetzung von Ausführungsformen der vorliegenden Erfindung dargestellt und allgemein als Rechenvorrichtung 700 bezeichnet. Die Rechenvorrichtung 700 ist nur ein Beispiel für eine geeignete Computerumgebung und soll keine Einschränkung des Anwendungsbereichs oder der Funktionalität der Erfindung nahelegen. Ebenso wenig darf die Rechenvorrichtung 700 so interpretiert werden, dass sie eine Abhängigkeit oder Anforderung in Bezug auf eine oder mehrere der dargestellten Komponenten aufweist.
Die Erfindung kann im allgemeinen Kontext von Computercode oder maschinenlesbaren Anweisungen, einschließlich computerausführbarer Anweisungen, wie beispielsweise Programmmodule, beschrieben werden, die von einem Computer oder einer anderen Maschine, wie beispielsweise einem persönlichen digitalen Assistenten oder einem anderen tragbaren Gerät, ausgeführt werden. Im Allgemeinen beziehen sich Programmodule, einschließlich Routinen, Programme, Objekte, Komponenten, Datenstrukturen usw., auf Code, der bestimmte Aufgaben erfüllt oder bestimmte abstrakte Datentypen implementiert. Die Erfindung kann in einer Vielzahl von Systemkonfigurationen verwirklicht werden, darunter tragbare Geräte, Unterhaltungselektronik, Universalcomputer, Spezialcomputer usw. Die Erfindung kann auch in verteilten Computerumgebungen angewendet werden, in denen Aufgaben von entfernten Verarbeitungsvorrichtungen ausgeführt werden, die über ein Kommunikationsnetzwerk verbunden sind.
In Bezug auf 7 beinhaltet die Rechenvorrichtung 700 einen Bus 710, der direkt oder indirekt die folgenden Vorrichtungen verbindet: Speicher 712, ein oder mehrere Prozessoren 714, eine oder mehrere Präsentationskomponenten 716, Ein-/Ausgabe-(I/O) Anschlüsse 718, Ein-/Ausgabekomponenten 720 und eine beispielhafte Spannungsversorgung 722. Der Bus 710 stellt einen oder mehrere Busse dar (z.B. Adressbus, Datenbus oder eine Kombination davon). Obwohl die verschiedenen Blöcke von 7 aus Gründen der Klarheit mit Linien dargestellt sind, ist die Abgrenzung verschiedener Komponenten in Wirklichkeit nicht so klar, und bildlich gesprochen wären die Linien eher grau und unscharf. Beispielsweise kann man eine Präsentationskomponente wie eine Anzeigevorrichtung als eine I/O-Komponente betrachten. Außerdem verfügen Prozessoren über Speicher. Der Erfinder ist sich bewusst, dass dies in der Natur der Technik liegt, und wiederholt, dass das Diagramm von 7 nur ein Beispiel für eine beispielhafte Rechenvorrichtung ist, die in Verbindung mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung verwendet werden kann. Es wird nicht zwischen Kategorien wie „Arbeitsplatz“, „Server“, „Laptop“, „Handheld-Gerät“ usw. unterschieden, wie sie alle im Rahmen von 7 und Bezugnahme auf „Computervorrichtung“ betrachtet werden.
Die Computervorrichtung 700 beinhaltet typischerweise eine Vielzahl von computerlesbaren Medien. Computerlesbare Medien können alle verfügbaren Medien sein, auf die von der Computervorrichtung 700 zugegriffen werden kann, einschließlich flüchtiger und nichtflüchtiger Medien sowie wechselbarer und nicht wechselbarer Medien. Computerlesbare Medien können beispielsweise Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien umfassen sowohl flüchtige als auch nichtflüchtige, wechselbare und nicht entfernbare Medien, die in einem Verfahren oder einer Technologie zur Speicherung von Informationen wie computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten implementiert sind. Computerspeichermedien umfassen unter anderem RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologien, CD-ROM, digitale vielseitige Festplatten (DVD) oder andere optische Plattenspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder jedes andere Medium, das zum Speichern der gewünschten Informationen verwendet werden kann und auf das mit der Computervorrichtung 700 zugegriffen werden kann. Computer-Speichermedien enthalten keine Signale per se. Kommunikationsmedien verkörpern typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus, und beinhalten alle Informationslieferungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, das eine oder mehrere seiner Eigenschaften so eingestellt oder geändert hat, dass es Informationen im Signal kodiert. Als Beispiel und nicht als Einschränkung umfassen Kommunikationsmedien drahtgebundene Medien wie ein drahtgebundenes Netzwerk oder eine direkte Verbindung und drahtlose Medien wie akustische, Funk-, Infrarot- und andere drahtlose Medien. Kombinationen aus einer der oben genannten Möglichkeiten sollten ebenfalls in den Anwendungsbereich von computerlesbaren Medien fallen.
Der Speicher 712 beinhaltet Computer-Speichermedien in Form von flüchtigen und/oder nichtflüchtigen Speichern. Der Speicher kann entfernbar, nicht entfernbar oder eine Kombination davon sein. Beispielhafte Hardwaregeräte sind Halbleiterspeicher, Festplatten, optische Laufwerke, etc. Die Rechenvorrichtung 700 beinhaltet einen oder mehrere Prozessoren, die Daten von verschiedenen Einheiten wie Speicher 712 oder I/O-Komponenten 720 lesen. Die Präsentationskomponente(n) 716 bieten Datenanzeigen für einen Benutzer oder eine andere Vorrichtung. Zu den exemplarischen Präsentationskomponenten gehören ein Anzeigegerät, ein Lautsprecher, eine Druckkomponente, eine Vibrationskomponente usw.
Die Ein-/Ausgabe-Anschlüsse 718 ermöglichen die logische Verbindung der Computervorrichtung 700 mit anderen Geräten, einschließlich der Ein-/Ausgabekomponenten 720, von denen einige eingebaut sein können. Beispielhafte Komponenten umfassen ein Mikrofon, einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner, einen Drucker, ein drahtloses Gerät, etc. Die Ein-/Ausgabekomponenten 720 können eine natürliche Benutzeroberfläche (NUI) bereitstellen, die in der Luft gemachte Gesten, Sprache oder andere physiologische Eingaben verarbeitet, die von einem Benutzer erzeugt werden. In einigen Fällen können Eingaben zur weiteren Verarbeitung an ein geeignetes Netzwerkelement übertragen werden. Ein NUI kann jede beliebige Kombination aus Spracherkennung, Styluserkennung, Gesichtserkennung, biometrischer Erkennung, Gestenerkennung sowohl auf dem Bildschirm als auch neben dem Bildschirm, in der Luftgemachte Gesten, Kopf- und Blickverfolgung und Berührungserkennung (wie im Folgenden näher beschrieben) in Verbindung mit einer Anzeige der Computervorrichtung 700 implementieren. Die Rechenvorrichtung 700 kann mit Tiefenkameras wie stereoskopischen Kamerasystemen, Infrarot-Kamerasystemen, RGB-Kamerasystemen, Touchscreen-Technologie und Kombinationen davon zur Gestenerkennung und -erkennung ausgestattet werden. Zusätzlich kann die Rechenvorrichtung 700 mit Beschleunigungssensoren oder Gyroskopen ausgestattet werden, die eine Bewegungserkennung ermöglichen. Die Ausgabe der Beschleunigungssensoren oder Gyroskope kann auf dem Anzeigegerät der Rechenvorrichtung 700 bereitgestellt werden, um immersive Augmented Reality oder Virtual Reality darzustellen.
Die vorliegende Erfindung wurde in Bezug auf bestimmte Ausführungsformen beschrieben, die in jeder Hinsicht nicht einschränkend, sondern erläuternd gedacht sind. Alternative Ausführungsformen werden für die Fachleute, auf die sich die vorliegende Erfindung bezieht, ersichtlich sein, ohne deren Anwendungsbereich zu verlassen.
Aus dem Vorstehenden ist ersichtlich, dass die vorliegende Erfindung gut geeignet ist, alle oben genannten Ziele und Gegenstände zu erreichen, zusammen mit anderen Vorteilen, die offensichtlich und dem System und der Methode inhärent sind. Es versteht sich, dass bestimmte Merkmale und Unterkombinationen nützlich sind und ohne Bezug auf andere Merkmale und Unterkombinationen verwendet werden können. Dies ist in den Ansprüchen vorgesehen und liegt im Umfang der Ansprüche.

Claims

Ein oder mehrere Computerspeichermedien, welche von einem Rechner nutzbare Anweisungen speichern, welche, wenn sie von einem oder von mehreren Rechnervorrichtungen ausgeführt werden, die eine oder die mehreren Rechnervorrichtungen dazu veranlassen, Operationen auszuführen, wobei die Operationen umfassen: Erhalten von Quellinhalt, der für ein eingegebenes Schnipsel relevant ist; Verwenden einer graphischen Repräsentation einer Vielzahl von Sätzen aus dem Quellinhalt, um eine Menge von Sätzen in dem relevanten Quellinhalt zu identifizieren, welche überlappende Information aufweisen; Erzeugen eines Kandidatensatzes durch Komprimieren von Inhalt in der Menge von Sätzen mit überlappender Information; Erzeugen eines finalen Inhalts, welcher eine Menge von Kandidatensätzen einschließlich des Kandidatensatzes umfasst; und Bereitstellen des finalen Inhalts als in Antwort auf das eingegebene Schnipsel automatisch erstellten Inhalt.
Ein oder mehrere Computerspeichermedien nach Anspruch 1, weiter umfassend Parsen des Quellinhalts, der für das eingegebene Schnipsel relevant ist, in eine Vielzahl von Sätzen.
Ein oder mehrere Computerspeichermedien nach Anspruch 2, wobei jeder Satz der Vielzahl von Sätzen auf einen ersten Graphen abgebildet wird und diesem ein Gewicht zugewiesen wird, wobei sich das Gewicht auf die Relevanz zwischen dem entsprechenden Satz und dem eingegebenen Schnipsel bezieht.
Ein oder mehrere Computerspeichermedien nach Anspruch 3, wobei zumindest ein Teil der gewichteten Sätze in eine Vielzahl von Wort-Token geparst werden.
Ein oder mehrere Computerspeichermedien nach Anspruch 4, wobei jeder Wort-Token der Vielzahl von Wort-Token auf einen zweiten Graphen abgebildet wird und diesem ein Gewicht zugewiesen wird, wobei sich das Gewicht auf die Relevanz zwischen dem entsprechenden Wort-Token und dem eingegebenen Schnipsel bezieht.
Ein oder mehrere Computerspeichermedien nach Anspruch 5, wobei die gewichteten Wort-Token komprimiert werden, um den Kandidatensatz zu erzeugen.
Ein oder mehrere Computerspeichermedien nach einem der vorstehenden Ansprüche, wobei das Erzeugen des finalen Inhalts umfasst: Sequenzieren zumindest eines Teils der Menge von Kandidatensätzen basierend auf Kandidatensatz-Rangfolgeplatzierungen, wobei der finale Inhalt zusammengesetzt wird, um eine Informationsabdeckungsredundanz zu verringern und eine Gesamtkohärenz zu optimieren.
Computerimplementiertes Verfahren zum Erzeugen von Inhalt basierend auf einer Graphen-basierten Satzkomprimierung unter Verwendung von abgerufenem Quellinhalt, welcher in einem Korpus vorhanden ist, wobei das Verfahren umfasst: Erhalten von Quellinhalt, der für ein eingegebenes Schnipsel relevant ist; Verwenden einer graphischen Repräsentation einer Vielzahl von Sätzen aus dem Quellinhalt, um eine Menge von Sätzen in dem relevanten Quellinhalt zu identifizieren, welche überlappende Information aufweisen; Erzeugen eines Kandidatensatzes durch Komprimieren von Inhalt in der Menge von Sätzen mit überlappender Information; Erzeugen eines finalen Inhalts, welcher eine Menge von Kandidatensätzen einschließlich des Kandidatensatzes umfasst; und Bereitstellen des finalen Inhalts als in Antwort auf das eingegebene Schnipsel automatisch erzeugten Inhalt.
Verfahren nach Anspruch 8, weiter umfassend Parsen des Quellinhalts, der für das eingegebene Schnipsel relevant ist, in eine Vielzahl von Sätzen.
Verfahren nach Anspruch 9, wobei jeder Satz der Vielzahl von Sätzen auf einen ersten Graphen abgebildet wird und diesem ein Gewicht zugewiesen wird, wobei sich das Gewicht auf die Relevanz zwischen dem entsprechenden Satz und dem eingegebenen Schnipsel bezieht.
Verfahren nach Anspruch 10, wobei zumindest ein Teil der gewichteten Sätze in eine Vielzahl von Wort-Token geparst werden.
Verfahren nach Anspruch 11, wobei jeder Wort-Token der Vielzahl von Wort-Token auf einen zweiten Graphen abgebildet wird und diesem ein Gewicht zugewiesen wird, wobei sich das Gewicht auf die Relevanz zwischen dem entsprechenden Wort-Token und dem eingegebenen Schnipsel bezieht.
Verfahren nach Anspruch 12, wobei die gewichteten Wort-Token komprimiert werden, um den Kandidatensatz zu erzeugen.
Verfahren nach einem der Ansprüche 8 bis 13, wobei das Erzeugen des finalen Inhalts umfasst: Sequenzieren zumindest eines Teils der Menge von Kandidatensätzen basierend auf Kandidatensatz-Rangfolgeplatzierungen, wobei der finale Inhalt zusammengesetzt wird, um eine Informationsabdeckungsredundanz zu verringern und eine Gesamtkohärenz zu optimieren.
Rechnersystem, umfassend: ein oder mehrere Prozessoren; und ein oder mehrere nicht-transitorische bzw. nicht-flüchtige computerlesbare Speichermedien, das bzw. die mit dem einen oder den mehreren Prozessoren gekoppelt ist bzw. sind, welche(s) darauf gespeicherte Anweisungen aufweist bzw. aufweisen, welche, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, das Rechnersystem dazu veranlassen, bereitzustellen: Mittel zum Identifizieren eine Menge von Sätzen in einem Quellinhalt mit überlappender Information, wobei die Menge von Sätzen für ein eingegebenes Schnipsel relevant ist; Mittel zum Erzeugen eines Kandidatensatzes durch Komprimieren von Inhalt in der Menge von Sätzen mit überlappender Information; und Mittel zum Erzeugen eines finalen Inhalts, welcher eine Menge von Kandidatensätzen einschließlich dem Kandidatensatz umfasst.
System nach Anspruch 15, weiter umfassend Mittel zum Parsen des Quellinhalts, der für das eingegebene Schnipsel relevant ist, in eine Vielzahl von Sätzen.
System nach Anspruch 16, wobei jeder Satz der Vielzahl von Sätzen auf einen ersten Graphen abgebildet wird und diesem ein Gewicht zugewiesen wird, wobei sich das Gewicht auf die Relevanz zwischen einem entsprechenden Satz und dem eingegebenen Schnipsel bezieht
System nach Anspruch 17, wobei die gewichteten Sätze in eine Vielzahl von Wort-Token geparst werden.
System nach Anspruch 18, wobei jeder Wort-Token der Vielzahl von Wort-Token auf einen zweiten Graphen abgebildet wird und diesem ein Gewicht zugewiesen wird, wobei sich das Gewicht auf die Relevanz zwischen dem entsprechenden Wort-Token und dem eingegebenen Schnipsel bezieht.
System nach Anspruch 19, wobei die gewichteten Wort-Token komprimiert werden, um den Kandidatensatz zu erzeugen.