DE10343228A1 - Verfahren und Systeme zum Organisieren elektronischer Dokumente - Google Patents

Verfahren und Systeme zum Organisieren elektronischer Dokumente Download PDF

Info

Publication number
DE10343228A1
DE10343228A1 DE10343228A DE10343228A DE10343228A1 DE 10343228 A1 DE10343228 A1 DE 10343228A1 DE 10343228 A DE10343228 A DE 10343228A DE 10343228 A DE10343228 A DE 10343228A DE 10343228 A1 DE10343228 A1 DE 10343228A1
Authority
DE
Germany
Prior art keywords
word
document
documents
keywords
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10343228A
Other languages
English (en)
Inventor
Steven J. Ft. Collins Simske
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of DE10343228A1 publication Critical patent/DE10343228A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Ein Verfahren zum Organisieren elektronischer Dokumente kann ein Erzeugen einer Liste von gewichteten Schlüsselwörtern für jedes Dokument, ein Zusammenclustern verwandter Dokumente, basierend auf einem Vergleich der gewichteten Schlüselwörter und ein Verknüpfen von Abschnitten von Dokumenten innerhalb eines Clusters, basierend auf einem Vergleich der gewichteten Schlüsselwörter, umfassen.

Description

  • Die Erfindung des Computers und nachfolgend die Fähigkeit elektronische Dokumente zu erzeugen hat Benutzer mit einer Vielfalt an Fähigkeiten ausgestattet. Moderne Computer ermöglichen es Benutzern, Dokumente, die in Größe, Gegenstand und Format variieren, elektronisch zu scannen bzw. abzutasten oder zu erzeugen. Diese Dokumente können auf einem Personalcomputer, Netzwerk, dem Internet oder einem anderen Speichermedium lokalisiert sein.
  • Angesichts der großen Anzahl von elektronischen Dokumenten, die auf Computern, insbesondere durch die Verwendung von Netzwerken und dem Internet, zugreifbar sind, ermöglicht ein Gruppieren dieser Dokumente es Benutzern, verwandte Dokumente oder Texte leichter zu lokalisieren. Zum Beispiel können Gegenstand, Datum und alphabetische Reihenfolge verwendet werden, um Dokumente zu kategorisieren. Zwischen Dokumenten oder Texten können Verknüpfungen bzw. Links, z. B. ein Internet-Hyperlink, eingerichtet sein, die es dem Benutzer erlauben, von einem verwandten Dokument zu einem anderen zu gehen.
  • Ein Verfahren zum Organisieren von Dokumenten und Verknüpfen derselben ist durch die Verwendung von Schlüsselwörtern. Idealerweise spiegeln Schlüsselwörter den Gegenstand jedes Dokuments wieder und können manuell oder elektronisch durch ein Zählen der Anzahl von Malen, mit der Wörter in einem Dokument erscheinen, und ein Wählen derjenigen gewählt werden, die am häufigsten oder mit einer minimalen Anzahl von Malen auftreten. Andere Verfahren zum Erzeugen von Schlüsselwörtern können ein Berechnen des Verhältnisses von Worthäufigkeiten innerhalb eines Dokuments zu Worthäufigkeiten innerhalb einer bezeichneten Gruppe von Dokumen ten, Korpus genannt, oder ein Wählen von Wörtern aus dem Titel eines Dokuments umfassen.
  • Diese Verfahren bieten jedoch lediglich unvollständige Lösungen für eine Schlüsselwortauswahl, weil dieselben sich lediglich auf die rohe Anzahl von Auftretensfällen von Schlüsselwörtern oder in einem Titel verwendeten Wörtern konzentriert, von denen eventuell keine den Gegenstand des Dokuments genau widerspiegelt. Folglich liefern Dokumente, die unter Verwendung von Schlüsselwörtern organisiert sind, die wie oben beschrieben erzeugt wurden, eventuell keine genaue Dokumentorganisation.
  • Es ist die Aufgabe der vorliegenden Erfindung, ein Verfahren zum Organisieren elektronischer Dokumente, ein Verfahren zum Erzeugen von Schlüsselwörtern für ein Dokument, ein Verfahren zum Erzeugen einer Zusammenfassung für Dokumente unter Verwendung gewichteter Schlüsselwörter aus einer Dokumentenschlüsselwortliste, ein Verfahren zum Clustern einer Mehrzahl von Dokumenten, ein Verfahren zum Zuordnen von zumindest zwei Texteinheiten, ein Programm, das auf einem Medium zum Speichern computerlesbarer Befehle gespeichert ist, oder ein System zum Organisieren elektronischer Dokumente mit verbesserten Charakteristika zu schaffen.
  • Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1, Anspruch 5, Anspruch 16, Anspruch 21 oder Anspruch 22, ein Programm gemäß Anspruch 27 oder Anspruch 38 oder ein System gemäß Anspruch 47 gelöst.
  • Die beiliegenden Zeichnungen stellen verschiedene Ausführungsbeispiele der vorliegenden Erfindung dar und sind ein Teil der Beschreibung. Die dargestellten Ausführungsbeispiele sind Beispiele der vorliegenden Erfindung und schränken den Schutzbereich der Erfindung nicht ein.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher erläutert. Es zeigen:
  • 1 ein Flußdiagramm, das ein Verfahren zum Auswählen von Schlüsselwörtern gemäß einem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
  • 2 ein Flußdiagramm, das ein Verfahren zum Gewichten nicht-numerischer Attribute gemäß einem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
  • 3 ein Beispiel eines Computercodes, der bei einem Ausführungsbeispiel der Erfindung verwendet wird;
  • 4 ein darstellendes Diagramm von Schlüsselwörtern und Gewichtungen, die durch ein Ausführungsbeispiel der Erfindung erzeugt wurden;
  • 5 ein Blockdiagramm, das ein Verfahren zum Clustern ähnlicher Dokumente unter Verwendung von Schlüsselwortgewichtungen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
  • 6 ein Blockdiagramm, das ein Verfahren zum Erzeugen von Dokumentzusammenfassungen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
  • 7 ein Blockdiagramm, das einen Relevanzmetrik-Berechnungsprozeß gemäß einem Ausführungsbeispiel der vorliegenden Erfindung darstellt; und
  • 8 ein Diagramm eines Systems gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • Überall in den Zeichnungen bezeichnen identische Bezugszeichen ähnliche, aber nicht notwendigerweise identische Elemente.
  • Darstellende Ausführungsbeispiele der vorliegenden Erfindung stellen unter anderem ein Verfahren und ein System zum Organisieren elektronischer Dokumente durch ein Erzeugen einer Liste gewichteter Schlüsselwörter, ein Clustern von Dokumenten, die eines oder mehrere Schlüsselwörter gemeinschaftlich verwenden, und ein Verknüpfen von Dokumenten innerhalb eines Clusters durch ein Verwenden ähnlicher Schlüsselwörter, Sätze, Absätze, etc. als Verknüpfungen bereit. Die Ausführungsbeispiele liefern eine kundenspezifizierbare Benutzersteuerung von Schlüsselwortgrößen, Clusterselektivität und Verknüpfungsspezifität, d. h. Verknüpfungen können ähnliche Absätze, Sätze, einzelne Wörter, etc. verbinden.
  • 1 ist ein Blockdiagramm, das ein Verfahren zum Erzeugen einer Liste gewichteter Schlüsselwörter gemäß einem Ausführungsbeispiel der vorliegenden Erfindung darstellt. Für jedes Dokument, das betrachtet wird, werden alle definierbaren oder erkennbaren Wörter, Zahlen etc., wie durch Standardsoftware auf dem Stand der Technik bestimmt, identifiziert (Schritt 101). Falls jegliche Dokumente, die betrachtet werden, papierbasiert sind, können Werkzeuge, wie beispielsweise eine Zonenanalysemaschine in Kombination mit einer optischen Zeichenerkennungs- (OCR = optical character recognition) Maschine verwendet werden, um das papierbasierte Dokument in ein elektronisches Dokument umzuwandeln. Zusätzlich können das Zonenanalyse- und OCR-Werkzeug automatisch zwischen Wörtern, Nicht-Wörtern und Zahlen differenzieren und Informationen über das Layout des Dokuments liefern.
  • Falls das Dokument ursprünglich elektronisch ist oder das Zonenanalyse- und OCR-Werkzeug das Dokument nicht ausreichend vorbereiten, können andere Software-Werkzeuge verwen det werden, um das Dokument für eine Schlüsselwortanalyse vorzubereiten, d. h. Software-Werkzeuge werden benötigt, um Wörter und Nicht-Wörter zu trennen und Dokumentlayoutinformationen aufzuzeichnen. Die Wörter und alle anderen Informationen, die auf jedes Wort bezogen sind, werden in Arrays gespeichert, die durch eine Software erzeugt werden.
  • Sind einmal alle erkennbaren Wörter gefunden, findet eine Lemmatisierung (ein Ersetzen jedes Wortes mit der Stammform desselben) statt (Schritt 102) und ein Wortarten- (POS = Parts-of-Speech) Etikettierer (Software, die jedes Wort oder lemmatisierte Wort als ein Nomen, Verb, Adjektiv, Adverb, etc. bezeichnet) weist jedem Wort eine grammatikalische Rolle zu (Schritt 103). Bei einigen Ausführungsbeispielen werden lediglich Nomen und Kardinalzahlen als mögliche Schlüsselwörter verwendet.
  • Unter Verwendung eines hochentwickelten POS-Etikettierers werden Nomen durch eine grammatikalische Rolle (Eigenname gegenüber allgemeinem Nomen gegenüber Pronomen und Singular gegenüber Plural) und eine Nomenrolle (Subjekt, Objekt oder anderes) kategorisiert (Schritt 104). Alle Beziehungswörter der Pronomen in dem Dokument werden dann identifiziert und verwendet, um alle Pronomen in dem Dokument zu ersetzen (Schritt 105). Zum Beispiel enthalten die Sätze „John sah den Ball kommen. Er fing ihn und warf ihn zu Paul." das Wort „Ball" einmal und „John" einmal. Wenn jedes Pronomen mit dem äquivalenten Beziehungswort ersetzt wird (Schritt 105), würden die Sätze lauten „John sah den Ball kommen. John fing Ball und warf Ball zu Paul.", was den Wortzählwert von „John" auf zwei und von „Ball" auf drei verändert.
  • Der letzte Schritt bei einem Vorbereiten des Dokuments für eine Schlüsselwortgewichtungsberechnung ist, Wörter basierend auf dem Layout des Dokuments zu gewichten (Schritt 106). Unter Verwendung von Positions- und Schriftartinformationen, z. B. Titel, Fettdruck, Fußzeile, Normaltext, etc., kann Wörtern eine „Layoutrollengewichtung" zugewiesen werden.
  • Es gibt viele unterschiedliche Verfahren, durch die Wörtern in einem Dokument eine Layoutrollengewichtung zugewiesen werden kann. Zum Beispiel kann ein jegliches Kategorisierungs- oder Unterkategorisierungswerkzeug, z. B. Seiten, Dateien, Ordner, etc. verwendet werden, um Wörter in einem Dokument basierend auf einem Dokumentenlayout zu katalogisieren. Alternativ muß ein Trennen von Wörtern in unterschiedliche Layoutkategorien nicht auftreten, solange jedem Wort eine Layoutrollengewichtung zugewiesen ist.
  • Zusätzlich bestehen viele unterschiedliche Dokumentlayouts. Zum Beispiel können einige Dokumentlayouts lediglich Text und Seiten umfassen, während andere Dokumentlayouts eine Titel, einen Text, Spalten, einen fettgedruckten Text, einen kursiven Text, einen farbigen Text, Tabellen, Fußnoten, eine Bibliographie, etc. umfassen können. Daher besteht eine Vielfalt von Layoutgewichtungszuweisungen und Verfahren zum Organisieren eines Dokumententexts zum Zweck eines Zuweisens einer Layoutrollengewichtung.
  • Während andere Möglichkeiten bestehen, wie es oben erläutert ist, werden bei einem Ausführungsbeispiel elektronische Dateien verwendet, um Wörter für jede Layoutkategorie zu halten. 2 ist ein Beispiel eines Codes, der verwendet werden kann, um eine Wortgewichtung basierend auf einer Layoutrolle zu organisieren und zu definieren. Genauer gesagt ist 2 eine XML- (Markup-Sprache) Definition (200) eines Dokuments, das vier unterschiedliche Textkategorien enthält. Das dargestellte Dokument kann ein Artikel gewesen sein, der aus einem Titel, zwei Textspalten und einem in Fettdruck gedruckten Satz gebildet ist.
  • Wie es in 2 gezeigt ist, wird dem Titel (201), dem fettgedruckten Abschnitt der ersten Spalte (202), den nicht fettgedruckten (203) Abschnitten der ersten Spalte und der zweiten Spalte (204) je ein Dateiname (205) und eine Gewichtung (206) gegeben. Dieses spezielle XML-Schema gewichtet den Titel fünfmal so stark wie Normaltext und fettgedruckten Text 2,5 mal so stark wie Normaltext. Die gleiche <ID>-Zahl (207) wird für alle Dateien bei diesem Beispiel verwendet, wobei angezeigt ist, daß jede Datei eine Komponente des gleichen Dokuments ist.
  • Während XML bei einem Ausführungsbeispiel der Erfindung verwendet wird, ist ein jeglicher anderer Manifestationsträger, d. h. eine jegliche andere Einrichtung zum Darstellen der Gewichtung und des Layouts eines Dokuments, zulässig. Zum Beispiel können Datenbanken, Dateisysteme und Strukturen oder Klassen in einer Programmiersprache, wie beispielsweise „C" oder „Java" die gleiche Organisation wie XML liefern. Markup-Sprachen, d. h. eine Computersprache, die verwendet wird, um die Struktur eines Dokuments zu identifizieren, wie beispielsweise XML oder SGML (Standard Generalized Markup Language = Standardkorrekturzeichensatz), werden bevorzugt, weil dieselben eine Lesbarkeit und eine Tragbarkeit bereitstellen und konform zu vorliegenden Standards sind.
  • Bei dem oben beschriebenen XML-Ausführungsbeispiel unterteilt die Erfindung ein Dokument in Dateien, die durch das Layout des Dokuments bestimmt sind. Alle Wortlemmata, grammatikalischen Rollen, Nomenrollen, etc. sind in diesen Dateien, wobei das Verhalten (Geschwindigkeit) des Verfahrens optimiert wird. Alternativ können Dokumente auf andere Weisen oder gar nicht unterteilt werden, wenn Layoutrollen, grammatikalische Rollen, etc. bestimmt werden.
  • Sind einmal Wörtern basierend auf dem Dokumentenlayout Gewichtungen zugewiesen (Schritt 106), wird für jedes Wort eine Gesamtgewichtung berechnet (Schritt 107). Während andere Wörter (Verben, Adjektive, Adverben, etc.) als Schlüsselwörter bei Ausführungsbeispielen der Erfindung verwendet werden können, können praktische Implementierungen Schlüs selwörter auf Nomen und Kardinalzahlen einschränken. Ein Verwenden von lediglich Nomen und Kardinalzahlen als Schlüsselwortmöglichkeiten liefert sehr anschauliche Schlüsselwortlisten, während der gesamte Schlüsselwortauswahlprozeß durch ein Reduzieren der Anzahl möglicher Auswahlmöglichkeiten vereinfacht wird.
  • Eine Wortgewichtung kann, unter anderen Verfahren, durch ein Zählen der Anzahl von Malen, die dieses Wort (einschließlich Pronomen dieses Worts) in dem Dokument auftritt, berechnet werden (Schritt 107), um einen Wortzählwert zu erzeugen. Durch ein Multiplizieren des Wortzählwerts mit einer „mittleren Rollengewichtung" und einer Quadratwurzel der Lemmalänge des Worts, die verwendet werden, um die Wichtigkeit des Worts abzuschätzen, wird eine Gesamtwortgewichtung berechnet. Die „mittlere Rollengewichtung" ist durch ein Summieren der durchschnittlichen grammatikalischen Rollengewichtung, Nomenrollengewichtung und Layoutrollengewichtung eines Worts bestimmt. Bei dem beispielhaften Ausführungsbeispiel wird die Gesamtgewichtung jedes Schlüsselworts berechnet (Schritt 107), wie es in der folgenden Gleichung gezeigt ist:
    Figure 00080001
    wobei „i" ein spezielles Auftreten eines Ausdrucks bezeichnet, „N" die Anzahl von Malen (einschließlich Pronomen und deiktischer Pronomen) ist, die der Ausdruck in dem Dokument auftrat, „length" die Länge des Lemmas des Ausdrucks (oder Lemmalänge) ist, „GRoleWeight" eine grammatikalische Rollengewichtung ist, „NRoleWeight" eine Nomenrollengewichtung ist und „LayoutWeight" eine Layoutrollengewichtung ist, wie es unten erläutert ist.
  • Es gibt mehrere unterschiedliche Gewichtungen, die GRole-Weight, NRoleWeight und LayoutWeight zugewiesen werden kön könnten. Bei einem Ausführungsbeispiel kann beispielsweise GRoleWeight eine von fünf Gewichtungen sein, abhängig von der grammatikalischen Rolle eines Ausdrucks. Genauer gesagt, sind die möglichen grammatikalischen Rollen (Attribute) für GRoleWeight: Kardinalzahl, allgemeines Nomen im Singular, allgemeines Nomen im Plural, Eigennamen, und Personalpronomen. Jedem Attribut wird gemäß dem Verfahren (300), das in 3 gezeigt ist, eine Gewichtung zugewiesen.
  • Um nicht-numerische Attribute zu gewichten, wie beispielsweise die grammatikalische Rolle von Wörtern in einem Dokument, wird zuerst eine „Grundwahrheit" erzeugt (Schritt 301). Die Grundwahrheit ist ein Satz von manuell rangmäßig bewerteten Mustern, die eine Einrichtung zum Testen experimenteller Gewichtungswerte für nicht-numerische Attribute bereitstellen. Wie es bei einem Ausführungsbeispiel der Erfindung implementiert ist, ist eine geeignete Grundwahrheit ein Satz von Dokumenten mit manuell rangmäßig bewerteten Schlüsselwörtern. Um effektiv zu sein, sollte der Satz von Mustern, der für die Grundwahrheit verwendet wird, statistisch groß genug sein, um nicht-beeinflußte Ergebnisse sicherzustellen.
  • Nachdem eine Grundwahrheit eingerichtet wurde (Schritt 301), wird ein Muster aus dem Grundwahrheitssatz für ein Experimentieren gewählt, z. B. ein Dokument mit manuell gewählten Schlüsselwörtern. Das Experiment umfaßt ein Variieren der Gewichtung, z. B. Verändern der Gewichtung in einem Bereich von 0,1 bis 10,0 unter Verwendung von Schritten von 0,1, für ein spezielles Attribut (während alle anderen Attribute konstant bei 1,0 gehalten werden), bis ein Wert gefunden ist (Schritt 302), der tatsächliche Ergebnisse mit dem Grundwahrheitsmuster in Übereinstimmung bringt. Durch ein Durchführen des gleichen Experiments an einem Satz von Mustern von der Grundwahrheit (Schritt 301), kann für jedes Attribut ein Durchschnittskorrelationswert berechnet werden (Schritt 303). Sind einmal alle Daten gesammelt, werden entsprechend den Korrelationsexperimenten Gewichtungen für unterschiedliche Attribute zugewiesen (Schritt 304).
  • Wenn z. B. eine Gewichtung für ein GRoleWeight-Attribut, wie beispielsweise ein „Eigenname", bestimmt wird, wäre eine geeignete Grundwahrheit (Schritt 301) ein Satz von Dokumenten mit Schlüsselwörtern, die durch die Autorenbereitgestellt sind. Durch ein Wählen eines Dokuments aus der Grundwahrheit, ein Gewichten des Eigennamen-Attributs von 0,1 bis 10,0 unter Verwendung von Schritten von 0,1 und ein Erhalten aller anderen Attributgewichtungen konstant bei 1,0 weicht die Liste von Schlüsselwörtern, die durch das Host-Gerät erzeugt wird, von den Schlüsselwörtern ab, die durch den Autor des gewählten Dokuments bereitgestellt werden. Der Eigennamengewichtungswert, der die gleichen Schlüsselwörter (zusätzlich kann die relative Rangfolge der Schlüsselwörter, z. B. 1., 2., 3., etc., verwendet werden) am besten erzeugt, wie dieselben in dem Grundwahrheitsmuster (Schritt 302) bereitgestellt sind, wird für jedes Dokument gewählt.
  • Falls herausgefunden wurde, daß die korrelierenden Eigennamengewichtungen für eine Grundwahrheit von fünf Musterdokumenten z. B. 1,2, 1,5, 1,6, 1,7 und 2,5 sind, ist der Durchschnittskorrelationswert (Schritt 303) 1,7. Der Durchschnittskorrelationswert (in diesem Fall 1,7) wird dann als die Eigennamengewichtung zugewiesen (Schritt 304). Unter Verwendung dieses Verfahrens (300) für eine größere Grundwahrheit (24 Dokumente) wurden bei einem Beispiel die folgenden grammatikalischen Rollengewichtungen zugewiesen: Tabelle 1 (Grammatikalische Rollengewichtungen)
    Figure 00100001
    Figure 00110001
  • Unter Verwendung eines ähnlichen Verfahrens (300) wurden Attributgewichtungen für NRoleWeight, eine Gewichtung, die darauf basiert, wie ein Nomen verwendet ist, und Layout-Weight, eine Gewichtung, die auf einem Dokumentenlayout basiert, wie es oben erläutert ist, bei diesem Beispiel wie folgt berechnet und zugewiesen: Tabelle 2 (Namenrollengewichtungen)
    Figure 00110002
    Tabelle 3 (Dokumentlayoutgewichtungen)
    Figure 00110003
  • Während bei einem Ausführungsbeispiel die Gewichtungswerte der Tabellen 1, 2 und 3 verwendet werden, sollen alle Attributgewichtungen kundenspezifizierbar auf die Bedürfnisse jedes Benutzers sein. Zum Beispiel können unterschiedliche Dokumentkorpusse und Schreibstile eine Einstellung auf die Werte für GRoleWeight, NRoleWeight und LayoutWeight erfordern, um die Erzeugung von Schlüsselwörtern zu optimieren.
  • Die Gewichtungseinstellung kann auf eine Vielfalt von Weisen gemacht werden, einschließlich ein Verwenden einer neuen Grundwahrheit (die den Dokumentkörper widerspiegelt, der organisiert werden soll) gemäß dem in 3 beschriebenen Verfahren (300), Versuch und Irrtum oder ein jegliches anderes Verfahren, das funktionale Attributgewichtungen erzeugt. Unter der Annahme, daß alle Attribute voneinander unabhängig sind, spielt die Gewichtung jedes Attributs eine erhebliche Rolle beim Erzeugen der Schlüsselwortliste.
  • Nachdem herausgefunden wurde, daß ein Satz von Attributgewichtungen (in Verbindung mit der oben gezeigten Gesamtschlüsselwortgewichtungsgleichung) effektiv Schlüsselwörter erzeugt, die den Grundwahrheitsmustern entsprechen, können die gleichen Attributgewichtungen und die Gesamtschlüsselwortgewichtungsgleichung implementiert werden, um (mit einer hohen Erfolgswahrscheinlichkeit) für ein jegliches Dokument mit einem ähnlichen Schreibstil genaue Schlüsselwörter zu erzeugen.
  • Bei diesem Beispiel kann ein Verwenden eines Computerprogramms, das die Gesamtschlüsselwortgewichtungsgleichung und den oben gezeigten Satz von Attributgewichtungen für GRole-Weight, NRoleWeight und LayoutWeight implementiert, verwendet werden, um eine automatisierte Einrichtung zum Erzeugen genauer Schlüsselwörter für elektronische Dokumente bereitzustellen. Durch ein Berechnen einer Gesamtgewichtung (Schritt 107, 1) gemäß Gleichung (1) für alle erkennbaren Ausdrücke in einem Dokument kann eine Schlüsselwortliste und eine „erweiterte Schlüsselwortliste", d. h. Schlüsselwörter einschließlich Umgebungstext, unter Verwendung der am höchsten gewichteten Ausdrücke in einem Dokument gebildet werden (Schritt 108).
  • Die erweiterte Schlüsselwortliste kann Phrasen sowie einzelne Schlüsselwörter enthalten, die durch die Wort-„Etikettierer", d. h. Computerprogramme, die Wörter, Wortgruppen, Phrasen, etc. identifizieren, identifiziert wer den. Ein Verwenden der erweiterten Schlüsselwörter, um Dokumente zu vergleichen, kann helfen, Wortgruppen, z. B. New York City, in den Dokumenten zu berücksichtigen, die erheblich sind, aber ohne ein Aufnehmen des Umgebungstextes nicht korrekt identifiziert würden. Erweiterte Wortlisten sind für ein Identifizieren von Eigennamen und Nomenphrasen allgemein erforderlich.
  • Bei dem in 4 gezeigten Schlüsselworterzeugungsbeispiel bildet ein Minimum von fünf Schlüsselwörtern (400) eine Schlüsselwortliste (401) für jedes von zwei Dokumenten. Bei diesem Beispiel sind zusätzliche Schlüsselwörter (andere als die fünf minimalen) in einer Schlüsselwortliste (401) enthalten, falls die Gewichtungen (402) derselben zumindest 20% der am höchsten gewichteten Wortgewichtung betragen. Falls z. B. die höchste Schlüsselwortgewichtung 1,0 ist, würden nur Wörter mit einer Gesamtgewichtung größer als 0,2 in die Schlüsselwortliste eingeschlossen. Wiederum kann der Benutzer die Anzahl von Schlüsselwörtern in der gewichteten Schlüsselwortliste individuell spezifizieren, um individuellen Bedürfnissen zu entsprechen. Dies kann durch ein Bezeichnen einer festen Anzahl von Schlüsselwörtern, die erzeugt werden sollen, lediglich einschließlich Schlüsselwörtern, deren Gewichtungen über einem bestimmten Prozentsatz, z. B. 10%, 20%, etc. der höchsten Schlüsselwortgewichtung liegen, oder ein jegliches anderes Verfahren zum Festlegen von Grenzen für die Schlüsselwortliste getan werden.
  • Jede gewichtete Schlüsselwortliste, die für eines oder mehrere Dokumente erzeugt ist, kann auf eine Vielfalt von Weisen verwendet werden. Eine Verwendung der Schlüsselwortliste innerhalb des Schutzbereichs der Erfindung ist in Verbindung mit einem Dokumentzusammenfasser.
  • Unter Verwendung normierter Schlüsselwortgewichtungen, d. h. Schlüsselwortgewichtungen geteilt durch die höchste Schlüsselwortgewichtung, kann eine Dokumentzusammenfassung durch den Prozeß erzeugt werden, der in 5 dargestellt und im folgenden mit Bezug auf Tabelle 4 erörtert ist: Tabelle 4
    Figure 00140001
  • Tabelle 4 stellt einen Dokumentabsatz dar, der vier Sätze S1, S2, S3 und 54 aufweist. Das Dokument bei diesem Beispiel wurde untersucht und fünf Schlüsselwörter A, B, C, D und E wurden erzeugt. Wie es in Tabelle 4 in Klammern gezeigt ist, sind die normierten Gewichtungen für die Schlüsselwörter A, B, C, D und E 1,0, 0,6, 0,5, 0,3 bzw. 0,2.
  • Um ein Dokument gemäß dem in 5 gezeigten Verfahren zusammenzufassen, durchsucht das Host-Gerät jeden Satz nach Wörtern in der Schlüsselwortliste (501). Sind die Schlüsselwörter einmal lokalisiert, wird eine Satzgewichtung berechnet (502), z. B. durch ein Zusammenaddieren aller Schlüsselwortgewichtungen (einschließlich mehreren Auftretensfällen des gleichen Schlüsselworts) für jeden Satz. Wie es in Tabelle 4 gezeigt ist, weist jeder Satz S1 bis S4 eine entsprechende Satzgewichtung auf, wobei Satz S3 die höchste Gewichtung aufweist. Diejenigen Sätze mit der höchsten Gewichtung, z. B. S3 in Tabelle 4, würden dann als ein Teil der Dokumentzusammenfassung (503) ausgewählt.
  • Durch eine Verwendung der in 5 beschriebenen Techniken ist ein Dokumentzusammenfasser, der mit einem Computerprogramm implementiert ist, in der Lage, Zusammenfassungen von verschiedenen Längen zu erzeugen, d. h. die Länge ist durch die Anzahl von Sätzen in der Zusammenfassung bestimmt. Die Sätze, die in der Zusammenfassung enthalten sind, können konfiguriert werden, um lediglich den am höchsten gewichteten Satz aus jedem Absatz, aus mehreren Absätzen, einer oder mehreren Seiten, etc. zu umfassen. Eine andere mögliche Variation umfaßt ein rangmäßiges Bewerten aller Sätze in einem Dokument nach einer Gewichtung und dann ein Auswählen einer Größe, z. B. einer Ganzzahl, eines Prozentsatzes eines Dokuments, etc., der rangmäßig am höchsten bewerteten Sätze für die Zusammenfassung. Durch ein Verwenden dieser oder anderer Zusammenfassungskonfigurationen kann ein Benutzer die Länge der Zusammenfassung steuern, bevor die Zusammenfassung tatsächlich erzeugt wird.
  • Ist die Zusammenfassung einmal erzeugt, kann dieselbe als eine „Kurzzusammenfassung" eines größeren Artikels oder bei einem Verdichtetes-Dokument-Cluster-Verfahren verwendet werden. Das gleiche Verfahren, das verwendet wird, um Dokumente zu Clustern, kann auch für Zusammenfassungen verwendet werden, mit dem Vorteil eines Optimierens des Verhaltens der Erfindung. Der in 6 beschriebene Prozeß clustert Dokumente, die eines oder mehrere Schlüsselwörter gemeinschaftlich verwenden, durch ein Berechnen und Anwenden einer „Gemeinschaftlich-verwendetes-Wort-Gewichtung". Das Clustern von Dokumenten und Zusammenfassungen kann unabhängig von oder in Verbindung miteinander auftreten.
  • Wie es in 6 gezeigt ist, beginnt der Clusterprozeß, wenn die gewichteten Schlüsselwortlisten von zwei oder mehr Dokumenten verglichen werden (Schritt 601). Das Host-Gerät berechnet einen Wert, „Gemeinschaftlich-verwendetes-Wort-Gewichtung" genannt, der den zwei Dokumenten entspricht. Der Gemeinschaftlich-verwendetes-Wort-Gewichtungswert zeigt das Ausmaß an, zu dem zwei oder mehr Dokumente basierend auf den Schlüsselwörtern derselben verwandt sind. Eine höhere Gemeinschaftlich-verwendetes-Wort-Gewichtung zeigt an, daß es wahrscheinlicher ist, daß die Dokumente verwandt sind.
  • Bei dem durch Tabelle 5 dargestellten Ausführungsbeispiel ist jede Schlüsselwortliste normiert, um eine Gesamtgewichtung von 1,0 aufzuweisen. Eine Normierung stellt ein Schlüsselwortgewichtungsschema bereit, bei dem Schlüsselwörter vieler Dokumente hinsichtlich der relativen Wichtigkeit derselben verglichen werden können. Tabelle 5
    Figure 00160001
  • Wie es in Tabelle 5 gezeigt ist, verwenden die Dokumente zwei Schlüsselwörter, „Hockey" und „Skaten" gemeinschaftlich. Der Gemeinschaftlich-verwendetes-Wort-Gewichtungswert der Schlüsselwörter kann auf eine Vielfalt von Weisen gewählt werden, z. B. maximal, mittel und minimal.
  • Falls der maximale Gemeinschaftlich-verwendetes-Wort-Gewichtungswert gewählt wird, weisen die zwei Dokumente eine Gemeinschaftlich-verwendetes-Wort-Gewichtung von „0,7" auf, d. h. die maximale Gewichtung für ein gemeinschaftlich verwendetes Schlüsselwort in Dokument 1 ist „Hockey, 0,4" und die maximale Gewichtung für ein gemeinschaftlich verwendetes Schlüsselwort in Dokument 2 ist „Skaten, 0,3". Ein Addieren dieser zwei maximalen gemeinschaftlich verwendeten Werte ergibt die Gemeinschaftlich-verwendetes-Wort-Gewichtung von „0,7".
  • Falls der mittlere Gemeinschaftlich-verwendetes-Wort-Gewichtungswert gewählt wird, weisen die zwei Dokumente eine Gemeinschaftlich-verwendetes-Wort-Gewichtung von „0,5" auf, d. h. die Summe aller Gewichtungswerte für „Hockey" und „Skaten" beträgt 0,4 + 0,25 + 0,3 + 0,05 = 1,0. Da es zwei Dokumente gibt, beträgt der mittlere Gemeinschaftlichverwendetes-Wort-Gewichtungswert 1,0/2 = 0,5.
  • Falls der minimale Gemeinschaftlich-verwendetes-Wort-Gewichtungswert gewählt wird, weisen die zwei Dokumente eine Gemeinschaftlich-verwendetes-Wort-Gewichtung von „0,3" auf, d. h. die minimale Gewichtung für ein gemeinschaftlich verwendetes Schlüsselwort in Dokument 1 ist „Skaten, 0,25" und die minimale Gewichtung für ein gemeinschaftlich verwendetes Schlüsselwort in Dokument 2 ist „Hockey, 0,05". Ein Zusammenaddieren dieser zwei minimalen gemeinschaftlich verwendeten Werte ergibt die Gemeinschaftlich-verwendetes-Wort-Gewichtung von „0,3".
  • Der maximale, der mittlere und der minimale Gemeinschaftlich-verwendetes-Wort-Gewichtungswert können durch ein Ausführungsbeispiel der Erfindung verwendet werden, um zu bestimmen, welche Dokumente in einem Cluster eingeschlossen werden sollen und welche Dokumente ausgeschlossen werden sollen. Genauer gesagt, wird bei einem bevorzugten Ausführungsbeispiel ein Gemeinschaftlich-verwendetes-Wort-Gewichtungsschwellenwert zu einer Aufnahme in einem Cluster gewählt. Falls z. B. ein Gemeinschaftlich-verwendetes-Wort-Gewichtungsschwellenwert von 0,7 bezeichnet ist und die zwei Dokumente von Tabelle 5 zu einem möglichen Clustern verglichen werden, clustert ein Verwenden des maximalen Gemeinschaftlich-verwendetes-Wort-Gewichtungswertes (1,0) die zwei Dokumente, während ein Verwenden des mittleren Gemeinschaftlich-verwendetes-Wort-Gewichtungs-(0,5) oder des minimalen Gemeinschaftlich-verwendetes-Wort-Gewichtungswertes (0,3) die zwei Dokumente nicht clustert. Der gleiche Prozeß kann für große Dokumentkorpusse verwendet werden, um Cluster von verwandten Dokumenten zu erzeugen.
  • Während eine Vielfalt von Verfahren besteht, die verwendet werden können, um Dokumente zu clustern, wie beispielsweise ein Clustern von Dokumenten mit gemeinsamen Titeln, ein Verwenden gewichteter Schlüsselwörter, um Ähnlichkeiten zwischen Dokumenten zu bestimmen, etc., verwendet ein bevorzugtes Verfahren eine Gemeinschaftlich-verwendetes-Wort-Schwellengewichtung und eine maximale, eine mittlere oder minimale Gemeinschaftlich-verwendetes-Wort-Gewichtung, wie es oben erläutert ist.
  • Genauer gesagt, wird die Bestimmung, ob der maximale, der mittlere oder der minimale Gemeinschaftlich-verwendetes-Wort-Gewichtungswert (wie in 6 gezeigt) verwendet werden soll, durch ein Berechnen und anschließendes Überprüfen der durchschnittlichen Anzahl von gemeinschaftlich verwendeten Schlüsselwörtern (Schritt 602) innerhalb eines Dokumentkörpers durchgeführt, d. h. die Schlüsselwortlisten von vielen Dokumenten (nicht nur zwei) können zu der gleichen Zeit verglichen und analysiert werden. Falls die durchschnittliche Anzahl von gemeinschaftlich verwendeten Wörtern zwischen 0 und 1,0 liegt (Bestimmung 603), wird die maximale Gemeinschaftlich-verwendetes-Wort-Gewichtung zu einem Clustern verwendet (Schritt 604). Falls die durchschnittliche Anzahl von gemeinschaftlich verwendeten Wörtern zwischen 1,0 und 2,0 liegt (Bestimmung 605), wird die mittlere Gemeinschaftlich-verwendetes-Wort-Gewichtung zu einem Clustern verwendet (Schritt 606). Falls die durchschnittliche Anzahl von gemeinschaftlich verwendeten Wörtern weder zwischen 0 und 1,0 noch zwischen 1,0 und 2,0 liegt (Bestimmungen 603, 605), d. h., falls die mittlere Anzahl von gemeinschaftlich verwendeten Schlüsselwörtern größer als 2,0 ist, wird die minimale Gemeinschaftlichverwendetes-Wort-Gewichtung zu einem Clustern verwendet (Schritt 607). Durch ein Verwenden der minimalen Gemeinschaftlich-verwendetes-Wort-Gewichtung zu einem Clustern von Dokumenten, die zwei oder mehr Schlüsselwörter gemeinschaftlich verwenden, ist es weniger wahrscheinlich, daß Dokumente, die lediglich geringfügig verwandt sind, geclustert werden.
  • Für das Beispiel der zwei Dokumente von Tabelle 5 beträgt die durchschnittliche Anzahl von gemeinschaftlich verwendeten Wörtern 2,0, weil jedes Dokument zwei Schlüsselwörter, „Hockey" und „Skaten", mit dem anderen Dokument gemeinsam enthält. Daher würde bei dem dargestellten Ausführungsbeispiel der mittlere Gemeinschaftlich-verwendetes-Wort-Gewichtungswert (0,5) verwendet, um zu bestimmen, ob die Dokumente geclustert werden sollten.
  • Die in jedem Cluster enthaltenen Dokumente können durch ein Ändern der Schwelle der erforderlichen Gemeinschaftlichverwendetes-Wort-Gewichtung zu einem Clustern, ein Ändern der Anzahl von Schlüsselwörtern, die in jeder Schlüsselwortliste enthalten ist, oder ein jegliches anderes Verfahren zum Einstellen des Clusterns von Dokumenten eingestellt werden, z. B. ein Clustern in Gruppen von 5, 10, 20, etc.
  • Nach einem Clustern können „weiche Verknüpfungen (soft links)" (Verknüpfungen, die für den Benutzer unsichtbar und durch das Host-Gerät automatisch einstellbar sind) innerhalb von Dokumenten erzeugt werden, um es einem Benutzer zu ermöglichen, von einem Dokumentabschnitt zu einem anderen verwandten Abschnitt innerhalb des Clusters zu bewegen. Unter Verwendung einer Relevanzmetrik (eine Berechnung einer Texteinheitsähnlichkeit unter Verwendung gewichteter Schlüsselwörter oder anderer Parameter) können weiche Verknüpfungen Dokumente mit einem anpaßbaren Detailpegel zuordnen, d. h. weiche Verknüpfungen können ähnliche Wörter, Sätze, Absätze, Seiten, etc. verbinden.
  • Ein Verfahren zum Berechnen einer Relevanzmetrik wäre ein Summieren der Schlüsselwortgewichtungen (bezogen auf ein spezifisches Wort, eine Phrase oder ein erwünschtes Thema), die innerhalb einer Texteinheit, z. B. einem Satz, einem Absatz oder einer Seite, gefunden werden. Die Texteinheiten mit den höchsten Gewichtungen bezogen auf das erwünschte Thema würden zu einem Verknüpfen von Dokumenten innerhalb eines Clusters verwendet.
  • Ein anderes Beispiel davon, wie eine Relevanzmetrik basierend auf Schlüsselwörtern berechnet werden kann, ist in 7 gezeigt. Angenommen eine gegebene Seite weist vier Texteinheiten, z. B. einen Satz, einen Absatz, etc., auf, die ein erwünschtes Wort enthalten, d. h. ein Wort oder Thema, das der Benutzer erkunden möchte. Die vier Auftretensfälle des erwünschten Worts werden lokalisiert (Schritt 701) und der Zweckmäßigkeit halber mit A, B, C und D gekennzeichnet. Falls A, B, C und D an Schriftzeichenpositionen (wie dieselben durch ein Zählen der Anzahl von Schriftzeichen in einem Dokument vom Anfang bis zum Ende definiert sind) von 100, 200, 300 bzw. 1000 lokalisiert sind und die Gewichtungen von A, B, C und D 1,5, 1, 1 bzw. 1,5 betragen (Schritt 702), können Relevanzgewichtungen für A, B, C und D berechnet werden, wie es in der folgenden Darstellung gezeigt ist:
    Für A beträgt die Gewichtung = 1,5 × ((1/100) + (1/200) + 1,5/900)) = 0,025;
    für B beträgt die Gewichtung = 1 × ((1,5/100) + (1/100) + (1,5/800)) = 0,026875;
    für C beträgt die Gewichtung = 1 × ((1,5/200) + (1/100) + (1,5/700)) = 0,019643; und
    für D beträgt die Gewichtung = 1,5 × ((1,5/900) + (1/800) + (1/900)) = 0,006042.
  • Zum Beispiel wird die Relevanzgewichtung für A wie gezeigt durch ein Summieren (Schritt 704) der Gewichtung von B geteilt durch den Abstand von B (gemessen in Schriftzeichen) von A (Schritt 703), der Gewichtung von C geteilt durch den Abstand von C von A (Schritt 703), die Gewichtung von D geteilt durch den Abstand von D von A (Schritt 703) und ein anschließendes Multiplizieren dieser Summe mit der Gewichtung von A (Schritt 705) berechnet. Die Summierung von Schlüsselwortgewichtungen geteilt durch die jeweiligen Abstände derselben zu einem speziellen Auftreten kann eine „Distanzmetrik" genannt werden (Schritt 704).
  • Die am höchsten gewichteten Relevanzbegriffe werden dann weich miteinander verknüpft. Bei diesem Beispiel weist das Auftreten B die höchste Relevanz auf und würde für ein weiches Verknüpfen mit anderen verwandten Texteinheiten verwendet, die in dem gleichen Dokument oder anderen Dokumenten gefunden wurden. Durch ein Verknüpfen mit dem Schlüsselwortauftreten B, (was relativ nahe an A und C liegt) eher als mit D ist es wahrscheinlicher, daß ein Benutzer Material findet, das auf das erwünschte Thema bezogen ist, weil die Konzentration von Schlüsselwörtern (wie mit einer Relevanzgewichtung wie oben erläutert berechnet) bei der Position B am höchsten ist.
  • Eine andere mögliche Weise eines Gewichtens der Relevanzmetrik ist, die mittlere gemeinschaftlich verwendete Gewichtung von erweiterten Wörtern, die durch zwei ausgewählte Texteinheiten, z. B. Sätze, gemeinschaftlich verwendet werden, mit der Frequenzmetrik der gemeinschaftlich verwendeten erweiterten Wörter zu multiplizieren, d. h. dem mittleren Verhältnis der Erweitertes-Wort-Auftretensfälle in den 'zwei Dokumenten verglichen mit den Auftretensfällen derselben in dem größeren Korpus.
  • Unter Verwendung einer Relevanzmetrik versucht die Erfindung verwandte Dokumente an den geeignetsten Stellen zu verknüpfen. Während weiche Verknüpfungen bei dem vorliegenden Ausführungsbeispiel lediglich innerhalb geclusterten Dokumenten erzeugt werden (um ein Verhalten zu optimieren), können Verknüpfungen zwischen jeglichen Dokumenten inner halb eines Korpusses oder einer Gruppe von Korpussen erzeugt werden. Weiche Verknüpfungen können ohne weiteres in permanentere Verknüpfungen geändert werden, z. B. Internet-Hyperlinks, um eine Dokumentorganisation und -navigation auf Internetseiten oder anderen Dokumentquellen zu erleichtern. Weiche Verknüpfungen können auch automatisch aktualisiert werden, wenn zusätzliche Dokumente zu einem Dokumentkorpus hinzugefügt werden.
  • 8 ist ein Blockdiagramm, das ein Ausführungsbeispiel eines Systems darstellt, das Prinzipien der vorliegenden Erfindung umfaßt. Das System (800) umfaßt einen Speicher (801), einen Prozessor (802), ein Eingabegerät (804), eine Zonenanalysemaschine (803) und ein Ausgabegerät (805). Unter Verwendung des Systems (800) von 8 und computerlesbaren Befehlen, die die oben offenbarten Verfahren codieren, kann eine sehr effiziente Dokumentorganisation durchgeführt werden. Durch das Eingabegerät (804) kann der Benützer die Verfahren individuell spezifizieren, die zu einem Erzeugen von Schlüsselwörtern, einem Erzeugen von Zusammenfassungen, einem Clustern von Dokumenten und einem Verknüpfen verwendet werden.

Claims (61)

  1. Verfahren zum Organisieren elektronischer Dokumente, wobei das Verfahren folgende Schritte aufweist: Erzeugen einer Liste von gewichteten Schlüsselwörtern für ein oder mehr Dokumente; Zusammenclustern verwandter Dokumente, basierend auf einem Vergleich der gewichteten Schlüsselwörter; und Verknüpfen von Abschnitten von Dokumenten innerhalb eines Clusters, basierend auf einem Vergleich der gewichteten Schlüsselwörter.
  2. Verfahren gemäß Anspruch 1, bei dem das Clustern und das Verknüpfen von Dokumenten automatisch ohne eine Benutzereingabe durchgeführt werden.
  3. Verfahren gemäß Anspruch 1 oder 2, bei dem das Erzeugen einer Liste von gewichteten Schlüsselwörtern für jedes Dokument ferner ein Durchführen einer Zonenanalyse bei jedem Dokument aufweist, um ein Layout jedes Dokuments zu identifizieren.
  4. Verfahren gemäß Anspruch 3, bei dem das Erzeugen einer Liste von gewichteten Schlüsselwörtern für jedes Dokument ferner ein Aufteilen jedes Dokuments in eine Mehrzahl von Dateien aufweist, wobei jede Datei einem Abschnitt des Dokuments entspricht, wie derselbe durch die Zonenanalyse identifiziert ist.
  5. Verfahren zum Erzeugen von Schlüsselwörtern für ein Dokument, wobei das Verfahren folgende Schritte aufweist: Identifizieren einer Mehrzahl von Wörtern in dem Dokument; Identifizieren einer Rolle jedes Worts; Berechnen einer Wortgewichtung für jedes Wort basierend auf der Rolle und der Position des Worts in dem Dokument; und Auswählen einer Anzahl von Schlüsselwörtern basierend auf berechneten Wortgewichtungen.
  6. Verfahren gemäß Anspruch 5, bei dem das Identifizieren einer Mehrzahl von Wörtern in dem Dokument ein Analysieren eines elektronischen Dokuments und ein Identifizieren aller definierbaren Wörter und Zahlen aufweist.
  7. Verfahren gemäß Anspruch 5 oder 6, bei dem das Identifizieren einer Rolle jedes Worts folgende Schritte aufweist: Lemmatisieren des Worts; und Kennzeichnen jedes Worts mit einer entsprechenden Wortart.
  8. Verfahren gemäß Anspruch 7, bei dem das Kennzeichnen jedes Worts mit einer entsprechenden Wortart folgende Schritte aufweist: Identifizieren eines Beziehungsnomens, das jedem Pronomen entspricht; und Ersetzen aller Pronomen mit dem entsprechenden Beziehungsnomen.
  9. Verfahren gemäß Anspruch 7 oder 8, bei dem das Kennzeichnen jedes Worts mit einer entsprechenden Wortart ferner folgende Schritte aufweist: Identifizieren und Kennzeichnen von Eigennamen; Identifizieren und Kennzeichnen von allgemeinen Nomen; Unterscheiden und Kennzeichnen von allgemeinen Nomen im Singular und im Plural; und Identifizieren und Kennzeichnen von Kardinalzahlen.
  10. Verfahren gemäß einem der Ansprüche 7-9, bei dem das Kennzeichnen jedes Worts mit einer entsprechenden Wortart ferner folgende Schritte aufweist: Identifizieren und Kennzeichnen von Nomen als Subjekte eines Satzes; Identifizieren und Kennzeichnen von Nomen als Objekte eines Satzes; und Identifizieren und Kennzeichnen von Nomen als andere Nomen (Nicht-Subjekte oder Objekte) in einem Satz.
  11. Verfahren gemäß einem der Ansprüche 5 bis 10, bei dem das Berechnen einer Wortgewichtung für jedes Wort folgende Schritte aufweist: Zählen einer Anzahl von Malen, die dieses Wort in dem Dokument auftritt, um eine Wortzählwert zu erzeugen; und Multiplizieren des Wortzählwerts mit einer „mittleren Rollengewichtung" und einer Quadratwurzel einer Lemmalänge.
  12. Verfahren gemäß Anspruch 11, bei dem die „mittlere Rollengewichtung" durch ein Summieren einer durchschnittlichen grammatikalischen Rollengewichtung, einer Nomenrollengewichtung und einer Layoutrollengewichtung eines Worts gefunden wird.
  13. Verfahren gemäß Anspruch 12, bei dem die grammatikalischen Rollengewichtungen, Nomenrollengewichtungen, und Layoutrollengewichtungen unter Verwendung eines Verfahrens zum Bestimmen nicht-numerischer Attributgewichtungen zugewiesen werden.
  14. Verfahren gemäß einem der Ansprüche 5-13, bei dem das Auswählen einer Anzahl von Schlüsselwörtern basierend auf Wortgewichtungen folgende Schritte aufweist: rangmäßiges Bewerten der Wörter durch die zugeordneten Wortgewichtungen derselben; und Auswahlen einer Anzahl von Wortern basierend auf einer Wortgewichtung, um eine Schlüsselwortliste zu bilden.
  15. Verfahren gemäß einem der Ansprüche 5-14, bei dem das Auswählen einer Anzahl von Schlüsselwörtern basierend auf einer Wortgewichtung ferner ein Erzeugen eines erweiterten Wortsatzes basierend auf ausgewählten Schlüsselwörtern aufweist.
  16. Verfahren zum Erzeugen einer Zusammenfassung für Dokumente unter Verwendung gewichteter Schlüsselwörter von einer Dokumentschlüsselwortliste, wobei jedes Schlüsselwort eine Wortgewichtung aufweist, wobei das Verfahren folgende Schritte aufweist: Zählen einer Anzahl von Schlüsselwortauftretensfällen in jedem Satz; Berechnen einer Satzgewichtung für jeden Satz basierend auf der Anzahl von Schlüsselwortauftretensfällen; und Erzeugen einer Zusammenfassung für ein Dokument, die einen oder mehr Sätze von dem Dokument enthält, die basierend auf den Satzgewichtungen ausgewählt sind.
  17. Verfahren gemäß Anspruch 16, bei dem das Berechnen einer Satzgewichtung für jeden Satz ein Summieren aller Wortgewichtungen von Wörtern in der Schlüsselwortliste aufweist, die innerhalb jedes Satzes gefunden werden.
  18. Verfahren gemäß Anspruch 16 oder 17, bei dem das Erzeugen einer Zusammenfassung, die einen oder mehr Sätze enthält, folgende Schritte aufweist: Unterteilen der Sätze in Satzgruppen; und Aufnehmen von zumindest einem Satz von jeder Satzgruppe in die Zusammenfassung.
  19. Verfahren gemäß Anspruch 18, bei dem die Satzgruppen Absätze sind.
  20. Verfahren gemäß einem der Ansprüche 16-19, bei dem das Erzeugen einer Zusammenfassung, die einen oder mehr Sätze enthält, ein Vorauswählen einer Zusammenfassungslänge und ein Aufnehmen einer Anzahl von Sätzen in die Zusammenfassung gemäß der vorausgewählten Zusammenfassungslänge aufweist.
  21. Verfahren zum Clustern einer Mehrzahl von Dokumenten, wobei jedes Dokument eine zugeordnete Schlüsselwortliste aufweist, die Schlüsselwörter enthält, wobei jedes Schlüsselwort eine zugeordnete Wortgewichtung aufweist, wobei das Verfahren folgende Schritte aufweist: Lokalisieren von zumindest einem Schlüsselwort, das durch zumindest zwei Dokumente der Mehrzahl von Dokumenten gemeinschaftlich verwendet wird; Berechnen einer Gemeinschaftlich-verwendetes-Wort-Gewichtung; und Clustern von Dokumenten mit einer Gemeinschaftlichverwendetes-Wort-Gewichtung über einer spezifizierten Schwelle.
  22. Verfahren zum Zuordnen von zumindest zwei Texteinheiten, wobei jede Texteinheit ein oder mehr gewichtete Schlüsselwörter enthält, wobei das Verfahren folgende Schritte aufweist: Definieren einer Mehrzahl von Texteinheiten, um einen Korpus von Texteinheiten zu bilden; Berechnen einer Texteinheit-Relevanzmetrik für jede Texteinheit basierend auf einem Vergleich der gewichteten Schlüsselwörter; und selektives Verknüpfen von Texteinheiten basierend auf der Texteinheit-Relevanzmetrik.
  23. Verfahren gemäß Anspruch 22, bei dem die Texteinheit ein Wort, eine Phrase, ein Satz, ein Absatz, eine Seite oder ein Dokument sein kann.
  24. Verfahren gemäß Anspruch 22 oder 23, bei dem das selektive Verknüpfen von Texteinheiten ein Erzeugen einer anpaßbaren Verknüpfung zwischen zumindest zwei Texteinheiten basierend auf der Relevanzmetrik aufweist.
  25. Verfahren gemäß Anspruch 24, bei dem die anpaßbare Verknüpfung für einen Benutzer sichtbar oder unsichtbar sein kann.
  26. Verfahren gemäß Anspruch 25, bei dem die anpaßbare Verknüpfung ein Internet Hyperlink ist.
  27. Programm, das auf einem Medium zum Speichern computerlesbarer Befehle gespeichert ist, wobei das Programm, wenn dasselbe ausgeführt wird, bewirkt, daß ein Host-Gerät: ein oder mehr Dokumente analysiert; eine Liste von gewichteten Schlüsselwörtern für jedes Dokument erzeugt; verwandte Dokumente basierend auf den gewichteten Schlüsselwörtern zusammenclustert; und Abschnitte von geclusterten Dokumenten basierend auf Auftretensfällen der gewichteten Schlüsselwörter verknüpft.
  28. Programm gemäß Anspruch 27, wobei das Programm ferner bewirkt, daß das Host-Gerät eine Zonenanalyse bei jedem Dokument durchführt, um das Layout jedes Dokuments zu identifizieren.
  29. Programm gemäß Anspruch 27 oder 28, wobei das Programm ferner bewirkt, daß das Host-Gerät: eine Mehrzahl von Wörtern in einem Dokument erkennt; eine grammatikalische Rolle jedes erkannten Wortes identifiziert; eine Wortgewichtung für jedes Wort basierend auf der grammatikalischen Rolle und Position des Worts in dem Dokument berechnet; und eine Anzahl von Wörtern als Schlüsselwörter basierend auf den Wortgewichtungen auswählt.
  30. Programm gemäß einem der Ansprüche 27-29, wobei das Programm ferner bewirkt, daß das Host-Gerät: die Wörter in einem Dokument lemmatisiert; und jedes Wort mit einer entsprechenden Wortart kennzeichnet.
  31. Programm gemäß einem der Ansprüche 27-30, wobei das Programm ferner bewirkt, daß das Host-Gerät: ein Beziehungsnomen identifiziert, das jedem Pronomen in einem Dokument entspricht; und alle Pronomen mit dem entsprechenden Beziehungsnomen ersetzt.
  32. Programm gemäß einem der Ansprüche 27-31, wobei das Programm ferner bewirkt, daß das Host-Gerät für jeden Ausdruck in einem Dokument eine Wortgewichtung berechnet, durch: ein Zählen einer Anzahl von Malen, die ein Ausdruck in einem Dokument auftritt; und ein Multiplizieren der Anzahl von Malen, die ein Ausdruck auftritt, mit einer „mittleren Rollengewichtung" und einer Quadratwurzel einer Lemmalänge dieses Ausdrucks.
  33. Programm gemäß einem der Ansprüche 27-32, wobei das Programm ferner bewirkt, daß das Host-Gerät durch ein Summieren einer durchschnittlichen grammatikalischen Rollengewichtung, einer Nomenrollengewichtung und einer Layoutrollengewichtung eines Ausdrucks eine „mittlere Rollengewichtung" berechnet.
  34. Programm gemäß einem der Ansprüche 27-33, wobei das Programm ferner bewirkt, daß das Host-Gerät unter Verwendung eines Verfahrens zum Gewichten von nicht-numerischen Attributen grammatikalische Rollengewichtungen, Nomenrollengewichtungen und Layoutrollengewichtungen berechnet.
  35. Programm gemäß einem der Ansprüche 27-34, wobei das Programm ferner bewirkt, daß das Host-Gerät durch ein Teilen der Wortgewichtungen in der Schlüsselwortliste durch eine höchste Wortgewichtung in der Schlüsselwortliste die Wörter der Schlüsselwortliste normiert.
  36. Programm gemäß einem der Ansprüche 27-35, wobei das Programm ferner bewirkt, daß das Host-Gerät durch ein Teilen der Wortgewichtungen in der Schlüsselwortliste durch eine Summe aller Wortgewichtungen in der Schlüsselwortliste die Wörter in der Schlüsselwortliste normiert.
  37. Programm gemäß einem der Ansprüche 27-36, wobei das Programm ferner bewirkt, daß das Host-Gerät einen erweiterten Wortsatz erzeugt, der ausgewählte Schlüsselwörter oder Ausgewählte enthält, die durch Wörter und Phrasen umgeben sind.
  38. Programm, das auf einem Medium zum Speichern computerlesbarer Befehle gespeichert ist, wobei das Programm, wenn dasselbe ausgeführt wird, bewirkt, daß ein Host-Gerät: eine Anzahl von Schlüsselwortauftretensfällen in jedem Satz eines Dokuments zählt; eine Satzgewichtung für jeden Satz berechnet; und eine Zusammenfassung für das Dokument, die einen oder mehr Sätze von dem Dokument enthält, basierend auf den Satzgewichtungen erzeugt.
  39. Programm gemäß Anspruch 38, wobei das Verfahren ferner bewirkt, daß das Host-Gerät gemäß einer Benutzereingabe eine Satzgruppierung definiert und zumindest einen Satz jede Satzgruppe in der Satzgruppierung in die Zusammenfassung aufnimmt.
  40. Programm gemäß Anspruch 38 oder 39, wobei das Programm ferner bewirkt, daß das Host-Gerät basierend auf einer vorausgewählten benutzerdefinierten Zusammenfassungslänge eine Zusammenfassung erzeugt.
  41. Programm gemäß einem der Ansprüche 38-40, wobei das Programm ferner bewirkt, daß das Host-Gerät: zumindest ein gewichtetes Schlüsselwort lokalisiert, das unter mehreren Dokumenten oder Zusammenfassungen gemeinschaftlich verwendet wird; eine Gemeinschaftlich-verwendetes-Wort-Gewichtung berechnet; und Dokumente oder Zusammenfassungen mit einer Gemeinschaftlich-verwendetes-Wort-Gewichtung über einer spezifizierten Schwelle clustert.
  42. Programm gemäß einem der Ansprüche 38-41, wobei das Programm ferner bewirkt, daß das Host-Gerät basierend auf einer durchschnittlichen Anzahl von Schlüsselwörtern, die durch die Dokumente oder Zusammenfassungen gemeinschaftlich verwendet werden, eine maximale, eine mittlere oder eine minimale Gemeinschaftlichverwendetes-Wort-Gewichtung zu einem Clustern auswählt.
  43. Programm gemäß einem der Ansprüche 38-42, wobei das Programm ferner bewirkt, daß das Host-Gerät: eine Mehrzahl von Texteinheiten in einem Korpus von Texteinheiten definiert; eine Texteinheit-Relevanzmetrik für jede Texteinheit basierend auf einem Vergleich von gewichteten Schlüsselwörtern berechnet; und Texteinheiten basierend auf der Relevanzmetrik selektiv verknüpft.
  44. Programm gemäß einem der Ansprüche 38-43, wobei das Programm ferner bewirkt, daß das Host-Gerät: eine Position und eine Gewichtung von Schlüsselwort- oder erweiterten Schlüsselwortauftretensfällen innerhalb einer Texteinheit bestimmt; eine Texteinheit-Gewichtung basierend auf Schlüsselwortgewichtungen berechnet; und für jede Texteinheit durch ein Multiplizieren einer Gewichtung einer gewählten Texteinheit mit einer Summe von anderen Texteinheit-Gewichtungen geteilt durch jeweilige Abstände von der gewählten Texteinheit eine Relevanzmetrik berechnet.
  45. Programm gemäß einem der Ansprüche 38-44, wobei das Programm ferner bewirkt, daß das Host-Gerät basierend auf einer Relevanzmetrik eine anpaßbare Verknüpfung zwischen zumindest zwei Texteinheiten erzeugt.
  46. Programm gemäß einem der Ansprüche 38-45, wobei das Programm ferner bewirkt, daß das Host-Gerät Verknüpfungen automatisch neueinstellt, wenn neue Texteinheiten dem Körper von Texteinheiten hinzugefügt werden.
  47. System zum Organisieren elektronischer Dokumente, wobei das System folgende Merkmale aufweist: eine Einrichtung zum Erzeugen einer Liste von gewichteten Schlüsselwörtern für jedes Dokument; eine Einrichtung zum Zusammenclustern verwandter Dokumente basierend auf den gewichteten Schlüsselwörtern; und eine Einrichtung zum Verknüpfen entsprechender Abschnitte der Dokumente innerhalb eines Clusters basierend auf den gewichteten Schlüsselwörtern.
  48. System gemäß Anspruch 47, das ferner eine Einrichtung zum Durchführen einer Zonenanalyse bei jedem Dokument aufweist, um ein Layout des Dokuments zu identifizieren.
  49. System gemäß Anspruch 97 oder 48, das ferner eine Einrichtung aufweist zum: Erhalten einer Mehrzahl von Wörtern in einem Dokument; Identifizieren einer Rolle jedes Worts; Berechnen einer Wortgewichtung für jedes Wort basierend auf einer Rolle und einer Position des Worts; und Auswählen einer Anzahl von Schlüsselwörtern basierend auf den Wortgewichtungen.
  50. System gemäß einem der Ansprüche 47-49, das ferner eine Einrichtung zum Analysieren elektronischer Dokumente und Identifizieren aller erkennbaren Wörter und Zahlen aufweist.
  51. System gemäß einem der Ansprüche 47-50, das ferner eine Einrichtung aufweist zum: Lemmatisieren von Wörtern; und Kennzeichnen jedes Worts in einem Dokument mit einer entsprechenden Wortart.
  52. System gemäß einem der Ansprüche 47-51, das ferner eine Einrichtung zum Zählen der Anzahl von Malen, die ein Ausdruck in einem Dokument auftritt, und Multiplizieren eines Ausdruckzählwerts mit einer „mittleren Rollengewichtung" und einer Quadratwurzel einer Lemmalänge für diesen Ausdruck aufweist.
  53. System gemäß einem der Ansprüche 47-52, das ferner eine Einrichtung zum Summieren einer durchschnittlichen grammatikalischen Rollengewichtung, einer Nomenrollengewichtung und einer Layoutrollengewichtung eines Ausdrucks aufweist.
  54. System gemäß einem der Ansprüche 47-53, das ferner eine Einrichtung zum Erzeugen eines erweiterten Wortsatzes aufweist, der Schlüsselwörter oder Schlüsselwörter enthält, die durch Wörter und Phrasen umgeben sind, die eine Bedeutung und eine Verwendung der Schlüsselwörter ergänzen können.
  55. System gemäß einem der Ansprüche 47-54, das ferner eine Einrichtung aufweist zum: Zählen einer Anzahl von Schlüsselwortauftretensfällen in einem Satz; Berechnen einer Satzgewichtung für einen Satz basierend auf Schlüsselwortauftretensfällen; und Erzeugen einer Zusammenfassung für ein Dokument, die einen oder mehr Sätze von dem Dokument enthält, basierend auf Satzgewichtungen.
  56. System gemäß einem der Ansprüche 47-55, das ferner eine Einrichtung zum Erlauben aufweist, daß ein Benutzer eine Zusammenfassungslänge vorauswählt.
  57. System gemäß einem der Ansprüche 47-56, das ferner eine Einrichtung aufweist zum: Lokalisieren von zumindest einem Schlüsselwort, das durch eine Mehrzahl von Dokumenten gemeinschaftlich verwendet wird; Berechnen einer Gemeinschaftlich-verwendetes-Wort-Gewichtung; und Clustern von Dokumenten mit einer Gemeinschaftlichverwendetes-Wort-Gewichtung über einer spezifizierten Schwelle.
  58. System gemäß einem der Ansprüche 47-57, das ferner eine Einrichtung aufweist zum: Definieren einer Mehrzahl von Texteinheiten; Berechnen einer Texteinheit-Relevanzmetrik für jede Texteinheit basierend auf einem Vergleich von gewichteten Schlüsselwörtern; und selektiven Verknüpfen von Texteinheiten basierend auf der Relevanzmetrik.
  59. System gemäß einem der Ansprüche 47-58, das ferner eine Einrichtung zum Erzeugen einer anpaßbaren Verknüpfung zwischen Texteinheiten basierend auf der Relevanzmetrik aufweist.
  60. System gemäß einem der Ansprüche 47-59, das ferner eine Einrichtung zum Aktualisieren von Verknüpfungen aufweist, wenn neue Dokumente zu einem vorangehend organisierten Korpus von Dokumenten hinzugefügt werden.
  61. System gemäß einem der Ansprüche 47-60, das ferner eine Einrichtung zum Clustern und Verknüpfen von Dokumenten ohne eine Benutzereingabe aufweist.
DE10343228A 2003-01-07 2003-09-18 Verfahren und Systeme zum Organisieren elektronischer Dokumente Withdrawn DE10343228A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/338,584 US20040133560A1 (en) 2003-01-07 2003-01-07 Methods and systems for organizing electronic documents
US10-338,584 2003-01-07

Publications (1)

Publication Number Publication Date
DE10343228A1 true DE10343228A1 (de) 2004-07-22

Family

ID=30770821

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10343228A Withdrawn DE10343228A1 (de) 2003-01-07 2003-09-18 Verfahren und Systeme zum Organisieren elektronischer Dokumente

Country Status (3)

Country Link
US (1) US20040133560A1 (de)
DE (1) DE10343228A1 (de)
GB (1) GB2397147A (de)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4145805B2 (ja) * 2003-03-17 2008-09-03 セイコーエプソン株式会社 テンプレート生成システム、レイアウトシステム、テンプレート生成プログラム、レイアウトプログラムおよびテンプレート生成方法並びにレイアウト方法
US7350187B1 (en) * 2003-04-30 2008-03-25 Google Inc. System and methods for automatically creating lists
US7359905B2 (en) * 2003-06-24 2008-04-15 Microsoft Corporation Resource classification and prioritization system
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
US20050149498A1 (en) * 2003-12-31 2005-07-07 Stephen Lawrence Methods and systems for improving a search ranking using article information
US8612411B1 (en) * 2003-12-31 2013-12-17 Google Inc. Clustering documents using citation patterns
US8954420B1 (en) 2003-12-31 2015-02-10 Google Inc. Methods and systems for improving a search ranking using article information
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US8386728B1 (en) 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US8346777B1 (en) 2004-03-31 2013-01-01 Google Inc. Systems and methods for selectively storing event data
US7941439B1 (en) 2004-03-31 2011-05-10 Google Inc. Methods and systems for information capture
US7412708B1 (en) 2004-03-31 2008-08-12 Google Inc. Methods and systems for capturing information
US8631001B2 (en) * 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US7272601B1 (en) 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US8275839B2 (en) 2004-03-31 2012-09-25 Google Inc. Methods and systems for processing email messages
US8099407B2 (en) 2004-03-31 2012-01-17 Google Inc. Methods and systems for processing media files
US7680888B1 (en) 2004-03-31 2010-03-16 Google Inc. Methods and systems for processing instant messenger messages
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US7581227B1 (en) 2004-03-31 2009-08-25 Google Inc. Systems and methods of synchronizing indexes
US7725508B2 (en) 2004-03-31 2010-05-25 Google Inc. Methods and systems for information capture and retrieval
US8631076B1 (en) 2004-03-31 2014-01-14 Google Inc. Methods and systems for associating instant messenger events
US20080040315A1 (en) * 2004-03-31 2008-02-14 Auerbach David B Systems and methods for generating a user interface
US8161053B1 (en) 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
US7707142B1 (en) 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US9031898B2 (en) * 2004-09-27 2015-05-12 Google Inc. Presentation of search results based on document structure
JPWO2006048998A1 (ja) * 2004-11-05 2008-05-22 株式会社アイ・ピー・ビー キーワード抽出装置
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
US20060174123A1 (en) * 2005-01-28 2006-08-03 Hackett Ronald D System and method for detecting, analyzing and controlling hidden data embedded in computer files
US7499591B2 (en) * 2005-03-25 2009-03-03 Hewlett-Packard Development Company, L.P. Document classifiers and methods for document classification
US20060218110A1 (en) * 2005-03-28 2006-09-28 Simske Steven J Method for deploying additional classifiers
US20080097972A1 (en) * 2005-04-18 2008-04-24 Collage Analytics Llc, System and method for efficiently tracking and dating content in very large dynamic document spaces
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement
US7539343B2 (en) * 2005-08-24 2009-05-26 Hewlett-Packard Development Company, L.P. Classifying regions defined within a digital image
US9262446B1 (en) 2005-12-29 2016-02-16 Google Inc. Dynamically ranking entries in a personal data book
JP4767694B2 (ja) * 2006-01-13 2011-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 不正ハイパーリンク検出装置及びその方法
JP5027483B2 (ja) * 2006-11-10 2012-09-19 富士通株式会社 情報検索装置及び情報検索方法
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
US20080225757A1 (en) * 2007-03-13 2008-09-18 Byron Johnson Web-based interactive learning system and method
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7873902B2 (en) * 2007-04-19 2011-01-18 Microsoft Corporation Transformation of versions of reports
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US20110069833A1 (en) * 2007-09-12 2011-03-24 Smith Micro Software, Inc. Efficient near-duplicate data identification and ordering via attribute weighting and learning
US8280892B2 (en) * 2007-10-05 2012-10-02 Fujitsu Limited Selecting tags for a document by analyzing paragraphs of the document
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
JP5232449B2 (ja) * 2007-11-21 2013-07-10 Kddi株式会社 情報検索装置およびコンピュータプログラム
US8306987B2 (en) * 2008-04-03 2012-11-06 Ofer Ber System and method for matching search requests and relevant data
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
JP5098914B2 (ja) * 2008-09-11 2012-12-12 富士通株式会社 メッセージパターン生成プログラム、方法及び装置
US9262395B1 (en) * 2009-02-11 2016-02-16 Guangsheng Zhang System, methods, and data structure for quantitative assessment of symbolic associations
US8407217B1 (en) * 2010-01-29 2013-03-26 Guangsheng Zhang Automated topic discovery in documents
CN102262630A (zh) 2010-05-31 2011-11-30 国际商业机器公司 进行扩展化搜索的方法和装置
US8977537B2 (en) * 2011-06-24 2015-03-10 Microsoft Technology Licensing, Llc Hierarchical models for language modeling
US10380554B2 (en) 2012-06-20 2019-08-13 Hewlett-Packard Development Company, L.P. Extracting data from email attachments
US10691737B2 (en) * 2013-02-05 2020-06-23 Intel Corporation Content summarization and/or recommendation apparatus and method
US9244919B2 (en) * 2013-02-19 2016-01-26 Google Inc. Organizing books by series
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9922116B2 (en) * 2014-10-31 2018-03-20 Cisco Technology, Inc. Managing big data for services
US10146751B1 (en) * 2014-12-31 2018-12-04 Guangsheng Zhang Methods for information extraction, search, and structured representation of text data
US10599758B1 (en) * 2015-03-31 2020-03-24 Amazon Technologies, Inc. Generation and distribution of collaborative content associated with digital content
WO2016171709A1 (en) * 2015-04-24 2016-10-27 Hewlett-Packard Development Company, L.P. Text restructuring
JP6511954B2 (ja) * 2015-05-15 2019-05-15 富士ゼロックス株式会社 情報処理装置及びプログラム
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
US9899038B2 (en) 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
SG11201901778YA (en) * 2016-09-02 2019-03-28 Futurevault Inc Automated document filing and processing methods and systems
US10572726B1 (en) * 2016-10-21 2020-02-25 Digital Research Solutions, Inc. Media summarizer
JP6930180B2 (ja) * 2017-03-30 2021-09-01 富士通株式会社 学習装置、学習方法及び学習プログラム
JP6930179B2 (ja) * 2017-03-30 2021-09-01 富士通株式会社 学習装置、学習方法及び学習プログラム
US10963501B1 (en) * 2017-04-29 2021-03-30 Veritas Technologies Llc Systems and methods for generating a topic tree for digital information
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
CN108628833B (zh) * 2018-05-11 2021-01-22 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
US11144337B2 (en) * 2018-11-06 2021-10-12 International Business Machines Corporation Implementing interface for rapid ground truth binning
US11048876B2 (en) * 2018-11-30 2021-06-29 Microsoft Technology Licensing, Llc Phrase extraction for optimizing digital page
US10809892B2 (en) 2018-11-30 2020-10-20 Microsoft Technology Licensing, Llc User interface for optimizing digital page
US10559307B1 (en) 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
US10735191B1 (en) 2019-07-25 2020-08-04 The Notebook, Llc Apparatus and methods for secure distributed communications and data access
US20230334248A1 (en) * 2022-04-13 2023-10-19 Servicenow, Inc. Multi-dimensional n-gram preprocessing for natural language processing
CN115952279B (zh) * 2022-12-02 2023-09-12 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US586855A (en) * 1897-07-20 Self-measuring storage-tank
JPH03122770A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
US5369714A (en) * 1991-11-19 1994-11-29 Xerox Corporation Method and apparatus for determining the frequency of phrases in a document without document image decoding
US5819259A (en) * 1992-12-17 1998-10-06 Hartford Fire Insurance Company Searching media and text information and categorizing the same employing expert system apparatus and methods
US6067552A (en) * 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US5864855A (en) * 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5706806A (en) * 1996-04-26 1998-01-13 Bioanalytical Systems, Inc. Linear microdialysis probe with support fiber
JPH1063685A (ja) * 1996-08-19 1998-03-06 Nec Corp 情報検索システム
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6279014B1 (en) * 1997-09-15 2001-08-21 Xerox Corporation Method and system for organizing documents based upon annotations in context
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US6044375A (en) * 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6664980B2 (en) * 1999-02-26 2003-12-16 Accenture Llp Visual navigation utilizing web technology
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US6651244B1 (en) * 1999-07-26 2003-11-18 Cisco Technology, Inc. System and method for determining program complexity
US6701314B1 (en) * 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6895406B2 (en) * 2000-08-25 2005-05-17 Seaseer R&D, Llc Dynamic personalization method of creating personalized user profiles for searching a database of information
US6711570B1 (en) * 2000-10-31 2004-03-23 Tacit Knowledge Systems, Inc. System and method for matching terms contained in an electronic document with a set of user profiles
US7571177B2 (en) * 2001-02-08 2009-08-04 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US6741984B2 (en) * 2001-02-23 2004-05-25 General Electric Company Method, system and storage medium for arranging a database
US20020152245A1 (en) * 2001-04-05 2002-10-17 Mccaskey Jeffrey Web publication of newspaper content
JP2003122999A (ja) * 2001-10-11 2003-04-25 Honda Motor Co Ltd 故障に対する対応方法を提供するシステム、プログラムおよび方法
US7031969B2 (en) * 2002-02-20 2006-04-18 Lawrence Technologies, Llc System and method for identifying relationships between database records
US7050630B2 (en) * 2002-05-29 2006-05-23 Hewlett-Packard Development Company, L.P. System and method of locating a non-textual region of an electronic document or image that matches a user-defined description of the region
US7254270B2 (en) * 2002-07-09 2007-08-07 Hewlett-Packard Development Company, L.P. System and method for bounding and classifying regions within a graphical image
US7234106B2 (en) * 2002-09-10 2007-06-19 Simske Steven J System for and method of generating image annotation information

Also Published As

Publication number Publication date
GB2397147A (en) 2004-07-14
GB0329223D0 (en) 2004-01-21
US20040133560A1 (en) 2004-07-08

Similar Documents

Publication Publication Date Title
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69811066T2 (de) Datenzusammenfassungsgerät.
US10095692B2 (en) Template bootstrapping for domain-adaptable natural language generation
DE69617515T2 (de) Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen
DE68923981T2 (de) Verfahren zur Bestimmung von Textteilen und Verwendung.
DE69424902T2 (de) Gerät und Verfahren zur anpassungsfähigen nicht-buchstäblichen Textsuche
US20200034722A1 (en) Non-factoid question-answering system and method and computer program therefor
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
DE69229204T2 (de) Iteratives Verfahren zum Suchen von Satzteilen und Informationsauffindungssystem, welches dieses benützt
DE69330633T2 (de) Verfahren und Apparat zum Vergleichen von semantischen Mustern für das Wiederauffinden von Texten
DE69624985T2 (de) Verfahren und Gerät, um Suchantworten in einem rechnergestützten Dokumentwiederauffindungssystem zu generieren
DE69028592T2 (de) Gerät zur automatischen Generierung eines Index
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE69618089T2 (de) Automatische Methode zur Erzeugung von Merkmalwahrscheinlichkeiten für automatische Extraktionszusammenfassung
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE102018005611A1 (de) Automatische Paarbildung von Fonts unter Verwendung des asymmetrischen Metriklernens
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
CN103699521A (zh) 文本分析方法及装置
DE102006040208A1 (de) Patentbezogenes Suchverfahren und -system
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE112021006602T5 (de) Verfeinern von abfrage-erzeugungsmustern
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal