EP2277116A1

EP2277116A1 - Erstellung eines kategorienbaums über den inhalt eines datenbestandes

Info

Publication number: EP2277116A1
Application number: EP08758423A
Authority: EP
Inventors: Jörg Wurzer; Christian Magnus
Original assignee: Iqser IP AG
Current assignee: Iqser IP GmbH
Priority date: 2008-05-08
Filing date: 2008-05-08
Publication date: 2011-01-26
Also published as: WO2009135511A1; US8745069B2; US20110113043A1

Abstract

Die vorliegende Erfindung betrifft Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt eines Datenbestandes, wobei eine Taxonomie des Datenbestandes aufgrund von Kookkurrenzen erstellt wird. Gegenstand der vorliegenden Erfindung ist ferner ein Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, welches ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen. Gegenstand der vorliegenden Erfindung ist darüber hinaus eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, welche ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines erfindungsgemäßen Datenverarbeitungssystems.

Description

Erstellung eines Kateqorienbaums über den Inhalt eines Datenbestandes

U/iö Vui lieytM lue [Zi i ii iuui iy υcmi i i cn i vci iαi ii cn z-uι CIUIVJI I ICIIIOOI ιcι ι ι_ι oιcιιuι ιy cn ico

Kategorienbaums über den Inhalt eines Informationsobjekte umfassenden Datenbestandes, wobei die Informationsobjekte des Datenbestandes in einem Index indiziert sind.

Ferner betrifft die vorliegende Erfindung Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes.

Gegenstand der vorliegenden Erfindung ist ferner ein Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, welches ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen.

Gegenstand der vorliegenden Erfindung ist darüber hinaus eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, welche ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines erfindungsgemäßen Datenverarbeitungssystems.

Verfahren, Datenverarbeitungssysteme und/oder Datenverarbeitungsvorrichtungen der eingangs genannten Art finden im Rahmen von Suchanwendungen beziehungsweise - routinen, beispielsweise seitens Betriebssystemen und/oder seitens sogenannter Suchmaschinen, sowie im Rahmen der Organisation, Bereitstellung und/oder Auslieferung von Informationen Verwendung. Verfahren, Systeme und Vorrichtungen zur elektronischen Verarbeitung von Daten sind im Stand der Technik in zahlreichen Ausgestaltungen bekannt, insbesondere aus der WO 2005/050471 A2, deren Offenbarungen hiermit explizit referenziert werden. Üblicherweise werden Inhalte als Informationen repräsentierende Daten eines Datenbestandes maschinell verarbeitet, insbesondere um Anwendern als technisches Hilfsmittel zur Lösung von Aufgaben zur Verfügung gestellt zu werden und/oder zu dienen. Datenbestände im Sinne der vorliegenden Erfindung sind einfache, universell nutzbare, persistente Informations- bzw. Datenobjekte die insbesondere wie Dateien und/oder Dokumente in Betriebssystemen oder Datenbanken, Struktur-, Inhalts- und bedarfsweise Verwaltungsinformationen enthalten.

Bei Datenverarbeitungssystemen und/oder Datenverarbeitungsvorrichtungen sind die Dälenbesiände einem Dätenverarbeitungssystern und/oder einer

Datenverarbeitungsvorrichtung üblicherweise über wenigstens eine Datenquelle, in der Regel einem in einem Datenverarbeitungssystem vorhandenen oder über ein Kommunikationsnetzwerk anschließbaren beziehungsweise verbindbaren Datenträger, beispielsweise einer Festplatte oder dergleichen Datenaufzeichnungsmittel, zugänglich.

Bei den bisher bekannten Verfahren, Datenverarbeitungssystemen und/oder Datenverarbeitungsvorrichtungen, ist die graphische Darstellung ermittelter Ergebnisse im Hinblick auf einen Überblick als Werkzeug für den Anwender bzw. Nutzer verbesserungsbedürftig, insbesondere hinsichtlich einer Übersicht bzw. eines Überblicks über den Inhalt eines Datenbestandes bei Suchanwendungen beziehungsweise -routinen, insbesondere Suchmaschinen.

Der Erfindung liegt in Anbetracht dieses Standes der Technik die Aufgabe zugrunde, einem Anwender bzw. Nutzer von Verfahren, Datenverarbeitungssystemen und/oder Datenverarbeitungsvorrichtungen auf einfache Art und Weise einen Überblick über den Inhalt von Datenbeständen zu ermöglichen, insbesondere hinsichtlich unstrukturierter und/oder schlecht überblickbarer Datenbestände.

Zur technischen Lösung wird mit der vorliegenden Erfindung ein Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt eines Informationsobjekte umfassenden Datenbestandes, wobei die Informationsobjekte des Datenbestandes in einem Index indiziert sind, vorgeschlagen, welches durch die folgenden Verfahrensschritte gekennzeichnet ist:

1. Herausfiltern von Stoppwörtern für jedes Informationsobjekt im Index anhand einer Liste; 2. Erstellen einer Wortliste in der herausgefilterte Stoppwörter nicht enthalten sind;

3. Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste;

4. Sortieren der Wortliste nach Signifikanz anhand des Signifikanzwertes;

5. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl;

6. Speichern der reduzierten Wortliste in einer Tabelle;

7. Ermitteln von Kookkurrenzen in der gespeicherten Wortliste;

8. Speichern der Kookkurrenzen in einer Datenbank;

9. Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) die die höchste Signifikanz haben, aber keine Kookkurrenzen untereinander bilden;

10. Selektion der ersten Ebene des Kategorienbaums aus den ermittelten Wörtern;

11. Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten Ebene die mit dem jeweils selektierten Wort der ersten Ebene in Kookkurrenz stehen;

12. Erstellen einer Wortliste aus den ermittelten Wörtern;

13. Ermitteln der Häufigkeit zu jedem Wort in der Wortliste;

14. Sortieren der Wortliste nach Häufigkeit;

15. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl, wobei die Wörter die eine überdurchschnittliche Häufigkeit aufweisen in der Wortliste verbleiben; 16. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Wörtern;

17. iterative Wiederholung der Verfahrensschritte 11. bis 16. für wenigstens eine weitere Ebene des Kategorienbaums, wobei in Verfahrensschritt 11. beim Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten und wenigstens einer weiteren Ebene die mit dem jeweils selektierten Wort der ersten und wenigstens einen weiteren Ebene in Kookkurrenz stehen ermittelt werden, ι_ :_ I i _ι __ :*.*_ Ii _ _ \ A /^ _i_ _ ~l _ :_u „. .11 :„± uia uie IViCi ιyc uci ei i uiuciici i vv unci yicioi i MUH ιoι.

Ein Index beziehungsweise Datenbankindex im Sinne der vorliegenden Erfindung ist eine von der Datenstruktur in einem Datenbestand beziehungsweise in einer Datenbank getrennte Indexstruktur. Der Index beschleunigt vorteilhafterweise die Suche und/oder das Sortieren nach bestimmten Feldern. Ein Index besteht vorteilhafterweise aus einer Ansammlung von Zeigern beziehungsweise Verweisen, die eine Ordnungsrelation auf eine oder mehrere Spalten in einer Tabelle definieren. Wird bei einer Abfrage eine indizierte Spalte als Suchkriterium herangezogen, sucht in der Regel das Datenbankmanagementsystem (DBMS) oder dergleichen Systeme die gewünschten Datensätze anhand dieser Zeiger beziehungsweise Verweise.

Eine Liste im Sinne der vorliegenden Erfindung ist eine dynamische Datenstruktur, mit einer endlichen Anzahl von Elementen. Dabei wird eine Speicherung von einer im Vorhinein nicht bestimmten Anzahl von miteinander in Beziehung stehenden Werten einfacher und/oder zusammengesetzter Datentypen ermöglicht.

Stoppwörter im Sinne der vorliegenden Erfindung sind Wörter, die bei einer Volltextindizierung nicht beachtet werden, da sie sehr häufig auftreten und in der Regel keine Relevanz für die Erfassung des Inhalts eines Dokuments besitzen. Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind beispielsweise bestimmte Artikel wie „der", „die" und „das". Stoppwörter zeichnen sich insbesondere dadurch aus, dass sie insbesondere grammatikalische und/oder syntaktische Funktionen übernehmen und daher in der Regel keine Rückschlüsse auf den Inhalt des Dokuments zulassen. Die durch das Herausfiltern gegebene nicht Berücksichtigung von Stoppwörtern dient insbesondere der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einer Suche beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Ein solches Suchergebnis wäre für den Anwender nutzlos. Eine Selektion im Sinne der vorliegenden Erfindung ist eine Auswahl von Datenobjekten aus einer Datenmenge, insbesondere im Zusammenhang mit relationalen Datenbanken beziehungsweise relationalen Datenbanksystemen.

Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in Verfahrensschritt 3. beim Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste der Signifikanzwert aus dem Quotienten der Worthäufigkeit des Wortes innerhalb des Informationsobjektes und der Worthäufigkeit des Wortes innerhalb des gesamten Indexes bestimmt wird.

Eine weitere Ausgestaltung der Erfindung sieht vor, dass die vorgebbare Maximalanzahl in Verfahrensschritt 5 auf bis zu 50 beschränkt ist.

Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in Verfahrensschritt 6. beim Speichern der reduzierten Wortliste in einer Tabelle Wörter in der Tabelle dem Signifikanzwert zugeordnet werden und in dem Fall, in dem der Signifikanzwert höher ist als der Signifikanzwert zu einem bestehenden Wort der höhere Signifikanzwert verwendet wird.

Ein weiterer vorteilhafter Vorschlag der Erfindung sieht vor, dass in Verfahrensschritt 8. beim Speichern der Kookkurrenzen in einer Datenbank die Datenbank eine Tabelle von Kookkurrenzen (Wort 1 und Wort 2) mit einem Häufigkeitswert in einer Tabellenzeile umfasst und wobei der Häufigkeitswert um den Faktor 1 erhöht wird, wenn es eine Kookkurrenz (Wort 1 und Wort 2) in der Tabelle bereits gibt.

Vorteilhafterweise ist die vorgebbare Maximalanzahl in Verfahrensschritt 15. auf bis zu 20 beschränkt.

Gemäß einem weiteren vorteilhaften Vorschlag der Erfindung wird der erstellte Kategorienbaum zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben, vorzugsweise in graphischer Form.

Zur technischen Lösung wird mit der vorliegenden Erfindung ferner ein Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes vorgeschlagen, welches durch die folgenden Verfahrensschritte gekennzeichnet ist: 1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Text des Datenbestandes;

2. Speichern der jeweiligen Wortmenge in einer relationalen Datenbank in Form einer Wortliste, wobei die Wörter jeweils mit einer Kennung für die jeweilige Wortmenge verknüpft werden;

3. Erstellen einer Wortliste aus den Wortmengen;

4. Selektion der ersten Ebene des Kateyorieπυäums aus den Wörtern der erstellten Wortliste;

5. Ermitteln von Kookkurrenzen für jedes Wort in der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;

6. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;

7. Selektion einer weiteren Ebene des Kategorienbaums aus den Wörtern der gespeicherten Wortliste;

8. Ermitteln von Kookkurrenzen für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kategorienbaums mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;

9. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;

10. iterative Wiederholung der Verfahrensschritte 7. bis 9. für wenigstens eine weitere Ebene des Kategorienbaums, bis die Menge der in Verfahrensschritt 8. ermittelten Wörter für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kategorienbaums mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen gleich null ist.

Eine weitere Ausgestaltung der Erfindung sieht vor, dass die in Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form. Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste nach Häufigkeit der jeweiligen Wörter absteigend sortiert wird, so dass die wichtigsten Begriffe gleich zu Anfang der Wortliste stehen.

Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in Verfahrensschritt 5. beim Ermitteln von Kookkurrenzen in der gespeicherten Wortliste jedes Wort in der Wortliste nach und nach mit den Wörtern einer jeden Wortmenge verglichen wird.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass die in Verfahrensschritt 6. gespeicherte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.

Vorteilhafterweise wird der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert wird, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.

Eine besonders vorteilhafter Vorschlag der Erfindung ist dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.

Vorteilhafterweise werden im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass beim Ermitteln von Kookkurrenzen in Verfahrensschritt 5. und/oder in Verfahrensschritt 8. eine Ähnlichkeitsüberprüfung erfolgt, wobei Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden. Vorteilhafterweise werden im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft. Vorteilhafterweise die vorgebbare Anzahl in Verfahrensschritt 1 auf bis zu 32 beschränkt.

Zur technischen Lösung wird mit der vorliegenden Erfindung ferner ein Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes vorgeschlagen, welches durch die folgenden Verfahrensschritte gekennzeichnet ist:

1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Texi des Datenbestandes;

3. Erstellen einer Wortliste aus den Wortmengen;

4. Selektion der ersten Ebene des Kategorienbaums aus den Wörtern der erstellten Wortliste;

5. Vergleichen von jedem Wort in der Wortliste mit jedem Wort innerhalb der in der Datenbank gespeicherten Wortmengen, wobei überprüft wird, ob zwei Wörter übereinstimmen und/oder eine gewisse Mindestähnlichkeit zueinander aufweisen und wobei bei Übereinstimmung und/oder gegebener Mindestähnlichkeit zwischen dem einen Wort und allen anderen Wörtern der Wortmengen eine gewichtete Verknüpfung mit der Gewichtung 0,1 hergestellt wird, wobei bei schon existierender Verknüpfung die Gewichtung der Verknüpfung um 0,1 angehoben wird und wobei bei Überschreitung einer Gewichtung von 1 ,0 die Gewichtung auf 0,9 zurückgesetzt und alle anderen Verknüpfungen auf einen Wert von 90 % herabgesetzt werden;

6. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste

7. Speichern der Verknüpfungen in einer Wortliste;

8. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Verknüpfungen und/oder der gespeicherten Wortliste; 9. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste und wenigstens einer gespeicherten Wortliste;

10. Speichern der Verknüpfungen in einer Wortliste;

11. iterative Wiederholung der Verfahrensschritte 8. bis 10. für wenigstens eine weitere Ebene des Kategorienbaums, bis die Menge der in Verfahrensschritt 9. ermittelten Verknüpfungen gleich null ist.

■ ■ i iσ vui ICIII laue nuoycoiαnui ιy uci ι_ι i n IUUI ιy ιoι uαuui υn ycrvoi n i^ciυi ιι ιcι, uαs. uiσ IM

Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.

Gemäß einem weiteren Vorschlag der Erfindung wird der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.

Vorteilhafterweise werden im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.

Eine weitere vorteilhafte Ausgestaltung der Erfindung ist gekennzeichnet durch eine graphische Benutzerschnittstelle zur Eingabe und/oder Wiedergabe von Wortlisten, Verknüpfungen und/oder wenigstens einer Ebene wenigstens eines Kategorienbaums. Vorteilhafterweise ist die graphische Benutzerschnittstelle weiter zur Eingabe, Änderung und/oder Wiedergabe von Informationen repräsentierenden Daten in wenigstens einem Datenbestand ausgebildet und/oder eingerichtet.

Die Benutzerschnittstelle stellt vorteilhafterweise eine graphische Benutzeroberfläche bereit, die eine handlungsorientierte Navigation ermöglicht. Vorteilhafterweise wird der erfindungsgemäß erstellte Kategorienbaum in der Benutzeroberfläche umgesetzt durch eine Baumstruktur in der zunächst die Oberbegriffe wiedergegeben bzw. angezeigt werden und wobei der Anwender die zugehörigen Unterbegriffe zur Anzeige bringen kann, indem er auf eine dafür seitens der Benutzeroberfläche vorgesehene Schaltfläche, welche mit dem Oberbegriff angezeigt wird durch sogenanntes Ankücken auswählt bzw. aktiviert. Auf diese Weise kann der Anwender sich vorteilhafterweise auch in weiteren Ebenen des Kategorienbaumes bewegen bzw. navigieren. Wählt der Anwender nun einen Begriff aus, wird vorteilhafterweise mit einer Suchmaschine bzw. einem Suchmaschinensystem, vorzugsweise einem System gemäß der WO 2005/050471 A2, eine Volltextsuche über den Index mit allen Begriffen des ausgewählten Pfades im Kategorienbaum, zum Beispiel ein Oberbegriff, dessen Unterbegriff und wiederum dessen Unterbegriff, durchgeführt. Es ist vorteilhafterweise auch möglich lediglich einen Oberbegriff für die Suche auszuwählen.

In einer weiteren vorteilhaften Ausgestaltung der Erfindung erfolgt die Wiedergabe zumindest teilweise in auswählbarer Form, das heißt die wiedergegebenen Kategorien des erfindungsgemäß erstellten Kategorienbaums sind beispielsweise selbst als Menüpunkt für Handlungsoptionen und/oder als Verknüpfung nach Art eines Links ausgebildet, und durch Auswahl, beispielsweise durch sogenanntes "Anklicken", entsprechend nutzbar.

In einer besonders bevorzugten Ausgestaltung der Erfindung wird das erfindungsgemäße Datenverarbeitungssystem, vorzugsweise im Rahmen einer auf einem Rechner laufenden Software, zur dynamischen Organisation von Informationen und/oder Prozessen eingesetzt.

Vorteilhafterweise ist das erfindungsgemäße Datenverarbeitungssystem Bestandteil einer Datenbankanwendung oder zumindest zusammen mit einer Datenbankanwendung nutzbar.

Gegenstand der vorliegenden Erfindung ist ferner eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, welche ausgebildet und/oder eingerichtet ist ein erfindungsgemäßes Verfahren zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines erfindungsgemäßen Datenverarbeitungssystems.

In einer weiteren vorteilhaften Ausgestaltung der Erfindung wird eine Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, bereitgestellt, die gekennzeichnet ist durch eine Nutzung eines erfindungsgemäßen Datenverarbeitungssystems.

In einer vorteilhaften Ausgestaltung der Erfindung ist die Datenverarbeitungsvorrichtung als mobiles Endgerät ausgebildet, vorzugsweise als ein in Mobilfunknetzen nutzbares beziehungsweise betreibbares mobiles Endgerät. Besonders bevorzugt ist eine Ausgestaltung der Datenverarbeitungsvorrichtung als Mobilfunktelefon.

Der Anwender bekommt mit einem erfindungsgemäßen Kategorienbaum einen Überblick über den Inhalt eines Datenbestandes, vorteilhafterweise über unstrukturierte Datenbestände, die sich ansonsten schlecht überblicken lassen. Darüber hinaus werden Sachverhalte und/oder Zusammenhänge transparent. Zum Beispiel dass es in den Texten eines oder mehrerer Datenbestände um Philosophie geht und die Ethik eine Disziplin innerhalb der Philosophie ist. Schließlich geht erfindungsgemäß, zum Beispiel in bzw. aus einem Bestand philosophischer Publikationen hervor, wer im Bereich der Ethik publiziert hat und damit mitunter auch zu den Philosophen zählt. Das Ergebnis einer automatischen Analyse der Begriffe in einem Datenbestand ist ein erfindungsgemäßer Kategorien- bzw. Begriffsbaum. An oberster Stelle stehen allgemein Begriffe, die Oberkategorien bilden. Den jeweiligen Oberkategorien sind Unterkategorien zugeordnet, diesen wiederum weiteren Unterkategorien. Die Verästelung des erfindungsgemäßen Kategorienbaumes kann vorteilhafterweise beliebig fortgesetzt werden bis alle signifikanten Begriffe aus einem Datenbestand eine oder mehrfache Zuordnungen erfahren haben. Der Anwender kann nun erfindungsgemäß Kategorien und Unterkategorien im Baum auswählen und erhält eine entsprechende Selektion des Datenbestandes. Die Selektion beruht auf vorteilhafterweise auf einer Suchanfrage, die die Begriffe aus dem selektierten Pfad des Kategorienbaumes berührt bzw. betrifft. Mit dem erfindungsgemäßen Kategorienbaum wird vorteilhafterweise eine Taxonomie aufgrund von Kookkurrenzen, das heißt dem gleichzeitigen Auftreten von Wörtern, erstellt. Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der Beschreibung der in den Figuren der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:

Fig. 1 in einem Flussdiagramm ein Ausführungsbeispiel einer erfindungsgemäßen Erstellung eines Kategorienbaums über den Inhalt eines Datenbestandes;

Fig. 2 in einem Flussdiagramm ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Erstellung eines Kategorienbaums über den Inhalt eines

L^cUCi ibθSidi idθS üfiu

Fig. 3 in einem Flussdiagramm ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Erstellung eines Kategorienbaums über den Inhalt eines Datenbestandes.

Bei dem in Fig. 1 dargestellten Ausführungsbeispiel erfolgt die Erstellung eines erfindungsgemäßen Kategorienbaums über den Inhalt eines Datenbestandes wie anhand des Flussdiagramms ersichtlich wie folgt:

Für jedes Informationsobjekt im Index werden Stoppwörter an Hand einer Liste herausgefiltert und es wird eine Wortliste erstellt. Zu jedem Wort gibt es einen Signifikanzwert. Dieser ergibt sich aus dem Quotient aus Worthäufigkeit innerhalb des Dokuments und der Worthäufigkeit im gesamten Index.

Die Wortliste wird nach Signifikanz sortiert und auf die Top 50 reduziert. Dieser Wert 50 kann konfiguriert werden. Die Top 50 werden in einer Tabelle gespeichert. Wörter werden da dem Signifikanzwert zugeordnet. Ist der Wert höher als zu einem bestehenden, wird der höhere Wert genommen.

Aus dieser Wortliste werden die Kookkurrenzen (das gleichzeitige Auftreten von Wörtern) abgeleitet und in einer Datenbank hinterlegt. Darin gibt es eine Tabelle von Kookkurrenzen (Wort 1 und Wort 2) mit einem Häufigkeitswert in einer Tabellenzeile. Wenn es eine Kookkurrenz bereits in der Tabelle gibt, wird der Häufigkeitswert um 1 erhöht.

Es werden nach Wörtern in der Kookkurrenztabelle gesucht, die die höchste Signifikanz haben aber keine Kookkurrenzen (untereinander) bilden. Sie bilden die erste Ebene des Kategorienbaumes. Für alle weiteren Ebenen des Kategorienbaumes werden nach und nach die ermittelten Wörter der ersten Ebene durchiteriert. Für jedes Wort werden die Wörter aus der Kookkurrenztabelle selektiert, die mit dem Wort Kookkurrenz stehen. Davon werden die Wörter selektiert, die eine überdurchschnittliche Häufigkeit haben. Diese Liste ist auf 20 begrenzt und nach Häufigkeit sortiert.

Für alle weiteren Ebenen werden analog ermittelt. Nur müssen auf der dritten Ebene die Kookkurrenzen zu beiden Wörtern bestehen, die im Kategorienbaum zur dritten Ebene führen.

Bei dem in Fig. 2 dargestellten Ausführungsbeispiel erfolgt die Erstellung eines erfindungsgemäßen Kategorienbaums über den Inhalt eines Datenbestandes wie anhand des Flussdiagramms ersichtlich wie folgt:

Aus allen Texten werden Wortmengen mit den 32 wenigsten Wörtern (die bedeutungstragenden) erstellt und jeweils in einer Datenbank hinterlegt. Dabei wird die Wortmenge in einer relationalen Datenbank in Form einer Wortliste abgespeichert, deren Wörter jeweils mit einer ID für die Wortmenge verknüpft sind. Aus diesen Wortmengen wird eine Wortliste erstellt, die angezeigt werden kann. Sie bildet die erste Ebene des Begriffsbaumes. Es ist möglich diese Wortliste nach Häufigkeit absteigend zu sortieren, so dass die wichtigsten Begriffe gleich zu Anfang stehen. Es kann vorkommen, dass Wörter mit gleicher Bedeutung aber unterschiedlichem Fall (Kasus) oder Beugung (Flexion) getrennte Kategorien bilden. Der Begriffsbaum kann daher im Anschluss für die Anzeige konsolidiert werden. Worte mit unterschiedlichen Endungen aber gleichen Stamm werden zu der kürzesten Variante zusammengefasst. Zwei Worte mit unterschiedlicher Länge werden jeweils verglichen, indem das längere Wort um zwei Buchstaben gekürzt wird. Das kürzere Wort wird dann auf die Länge des anderen Wortes gebracht und auf eine Übereinstimmung überprüft.

Es werden für jedes Wort der Wortliste Kookkurrenzen (gleichzeitiges Vorkommen) mit anderen Wörtern der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen zusammengestellt. Dazu werden die Worte der Wortliste durchiteriert. Jedes Wort wird mit den Wörtern einer jeden Wortmenge verglichen. Die Wortmengen werden ebenfalls durchiteriert. Beim Wort-für Wort-Vergleich werden auch Ähnlichkeiten wie oben beschrieben berücksichtigt. Stimmt eines der Worte überein, werden die übrigen Worte der Wortmenge zur Ergebnisliste hinzugefügt. Als Ergebnis entsteht für jedes Wort der ersten Wortliste eine weitere Wortliste, die wie oben beschrieben konsolidiert und als zweite Ebene des Baumes angezeigt werden kann. Es werden für jede Wort-Kombination innerhalb des Kategorienbaumes Kookkurrenzen mit anderen Worten der ersten Wortliste innerhalb von den Wortmengen zusammengestellt. In diesem Fall werden die Worte einer Wortmenge nur dann in einer Ergebnisliste übernommen, wenn beide Wörter in der beschriebenen Ähnlichkeit übereinstimmen. Die jeweiligen Ergebnisse bilden die dritte Ebene des Begriffsbaumes. Die Ergebnisliste kann wieder konsolidiert werden.

Für die vierte Ebene können die Wort-Kombinationen wieder als Ausgangspunkt gewählt werden.

Bei dem in Fig. 3 dargestellten Ausführungsbeispiel erfolgt die Erstellung eines erfindungsgemäßen Kategorienbaums über den Inhalt eines Datenbestandes wie anhand des Flussdiagramms ersichtlich wie folgt:

Aus jedem Text werden die 32 wenigsten Worte (die bedeutungstragenden) extrahiert und in einer Datenbank abgespeichert. Aus den Wortmengen wird eine Wortliste extrahiert, die die erste Ebene des Kategorienbaumes entspricht. Wie schon im ersten Verfahren beschrieben kann die Liste konsolidiert werden.

Im Anschluss wird die Wortliste durchiteriert und jedes Wort mit jeweils allen Wörtern, jeweils aller Wortmengen verglichen. Stimmen zwei Wörter einschließlich der Ähnlichkeitsüberprüfung überein, wird zwischen dem einen Wort und allen anderen der Wortmenge eine Verknüpfung mit der Gewichtung 0,1 hergestellt. Existiert diese Verknüpfung schon, wird die Gewichtung der Verknüpfung um 0,1 angehoben. Überschreitet der Wert 1 , wird er auf 0,9 zurückgesetzt und alle anderen Verknüpfungen auf einen Wert von 90 % herabgesetzt.

Für die zweite Ebene des Kategorienbaumes werden die Verknüpfungen selektiert, die zu einem Begriff der ersten Wortliste erstellt wurde. Diese Liste kann wieder nach Ähnlichkeit konsolidiert werden.

Für die dritte Ebene des Kategorienbaumes werden die Verknüpfungen selektiert, die sowohl mit dem ersten und zweiten Begriff verknüpft sind.

Für die vierte Ebene des Kategorienbaumes werden die Verknüpfungen selektiert, die sowohl mit dem ersten, zweiten und dritten Begriff verknüpft sind. Die in den Figuren der Zeichnung dargestellten und in Zusammenhang mit der Beschreibung erläuterten Ausführungsbeispiele der Erfindung dienen lediglich der Erläuterung der Erfindung und sind für diese nicht beschränkend.

Claims

Ansprüche: Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt eines Informationsobjekte umfassenden Datenbestandes, wobei die Informationsobjekte des Datenbestandes in einem Index indiziert sind, gekennzeichnet durch die folgenden Verfahrensschritte:

1. Herausfiltern von Stoppwörtern für jedes Informationsobjekt im Index anhand einer Liste;

2. Erstellen einer Wortliste in der herausgefilterte Stoppwörter nicht enthalten sind;

3. Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste;

4. Sortieren der Wortliste nach Signifikanz anhand des Signifikanzwertes;

5. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl (50);

6. Speichern der reduzierten Wortliste in einer Tabelle;

7. Ermitteln von Kookkurrenzen in der gespeicherten Wortliste;

8. Speichern der Kookkurrenzen in einer Datenbank;

12. Erstellen einer Wortliste aus den ermittelten Wörtern;

13. Ermitteln der Häufigkeit zu jedem Wort in der Wortliste;

14. Sortieren der Wortliste nach Häufigkeit;

15. Reduzieren der sortierten Wortliste auf eine vorzugsweise vorgebbare Maximalanzahl (20), wobei die Wörter die eine überdurchschnittliche Häufigkeit aufweisen in der Wortliste verbleiben;

16. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Wörtern;

17. iterative Wiederholung der Verfahrensschritte 11. bis 16. für wenigstens eine weitere Ebene des Kategorienbaums, wobei in Verfahrensschritt 11. beim Ermitteln von Wörtern anhand der Tabelle von Kookkurrenzen (Kookkurrenztabelle) für jedes selektierte Wort der ersten und wenigstens einer weiteren Ebene die mit dem jeweils selektierten Wort der ersten und wenigstens einen weiteren Ebene in Kookkurrenz stehen ermittelt werden, bis die Menge der ermittelten Wörter gleich null ist.

2. Verfahren nach Anspruch 1 , wobei in Verfahrensschritt 3. beim Ermitteln eines Signifikanzwertes zu jedem Wort in der Wortliste der Signifikanzwert aus dem Quotienten der Worthäufigkeit des Wortes innerhalb des Informationsobjektes und der Worthäufigkeit des Wortes innerhalb des gesamten Indexes bestimmt wird.

3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, dass die vorgebbare Maximaiäπzahi in Venahiensschritt 5 auf bis zu 50 beschränkt ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei in Verfahrensschritt 6. beim Speichern der reduzierten Wortliste in einer Tabelle Wörter in der Tabelle dem Signifikanzwert zugeordnet werden und in dem Fall, in dem der Signifikanzwert höher ist als der Signifikanzwert zu einem bestehenden Wort der höhere Signifikanzwert verwendet wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei in Verfahrensschritt 8. beim Speichern der Kookkurrenzen in einer Datenbank die Datenbank eine Tabelle von Kookkurrenzen (Wort 1 und Wort 2) mit einem Häufigkeitswert in einer Tabellenzeile umfasst und wobei der Häufigkeitswert um den Faktor 1 erhöht wird, wenn es eine Kookkurrenz (Wort 1 und Wort 2) in der Tabelle bereits gibt.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die vorgebbare Maximalanzahl in Verfahrensschritt 15. auf bis zu 20 beschränkt ist.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der erstellte Kategorienbaum zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.

8. Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes, gekennzeichnet durch die folgenden Verfahrensschritte:

1. Erstellen von Wortmengen mit einer vorzugsweise vorgebbaren Anzahl der bedeutungstragenden Wörter für jeden Text des Datenbestandes;

3. Erstellen einer Wortliste aus den Wortmengen;

6. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;

8. Ermitteln von Kookkurrenzen für jede Wort-Kombination der ersten und wenigstens einen weiteren Ebene des Kaiegυrieπbäurns mit anderen Worten der Wortliste innerhalb der in der Datenbank gespeicherten Wortmengen;

9. Speichern der Kookkurrenzen in einer Datenbank in Form einer Wortliste;

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.

10. Verfahren nach Anspruch 8 oder Anspruch 9, dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste nach Häufigkeit der jeweiligen Wörter absteigend sortiert wird.

11. Verfahren nach einem der Ansprüche 8 bis 10, wobei in Verfahrensschritt 5. beim Ermitteln von Kookkurrenzen in der gespeicherten Wortliste jedes Wort in der Wortliste nach und nach mit den Wörtern einer jeden Wortmenge verglichen wird.

12. Verfahren nach einem der Ansprüche 8 bis 11 , dadurch gekennzeichnet, dass die in Verfahrensschritt 6. gespeicherte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.

13. Verfahren nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, dass der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert wird, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.

15. Verfahren nach Anspruch 13 oder Anspruch 14, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.

16. Verfahren nach einem der Ansprüche 8 bis 15, dadurch gekennzeichnet, dass beim Ermitteln von Kookkurrenzen in Verfahrensschritt 5. und/oder in Verfahrensschritt 8. eine Ähnlichkeitsüberprüfung erfolgt, wobei Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.

17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.

18. Verfahren nach einem der Ansprüche 8 bis 17, dadurch gekennzeichnet, dass die vorgebbare Anzahl in Verfahrensschritt 1 auf bis zu 32 beschränkt ist.

19. Verfahren zur automatischen Erstellung eines Kategorienbaums über den Inhalt von allen Texten eines Datenbestandes, gekennzeichnet durch die folgenden Verfahrensschritte:

3. Erstellen einer Wortliste aus den Wortmengen;

5. Vergleichen von jedem Wort in der Wortliste mit jedem Wort innerhalb der in der Datenbank gespeicherten Wortmengen, wobei überprüft wird, ob zwei Wörter übereinstimmen und/oder eine gewisse Mindestähnlichkeit zueinander aufweisen und wobei bei Übereinstimmung und/oder gegebener Mindestähnlichkeit zwischen dem einen Wort und allen anderen Wörtern der Wortmengen eine gewichtetc Verknüpfung rr.it der Gewichtung 0,1 hergestellt wird, wobei bei schon existierender Verknüpfung die Gewichtung der Verknüpfung um 0,1 angehoben wird und wobei bei Überschreitung einer Gewichtung von 1 ,0 die Gewichtung auf 0,9 zurückgesetzt und alle anderen Verknüpfungen auf einen Wert von 90 % herabgesetzt werden;

6. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste

7. Speichern der Verknüpfungen in einer Wortliste;

8. Selektion einer weiteren Ebene des Kategorienbaums aus den ermittelten Verknüpfungen und/oder der gespeicherten Wortliste;

9. Ermitteln der Verknüpfungen von jedem Wort in der erstellten Wortliste und wenigstens einer gespeicherten Wortliste;

10. Speichern der Verknüpfungen in einer Wortliste;

20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass die in Verfahrensschritt 3. erstellte Wortliste zumindest teilweise seitens einer Anzeigeeinrichtung einer Rechenanlage wiedergegeben wird, vorzugsweise in graphischer Form.

21. Verfahren nach Anspruch 19 oder Anspruch 20, dadurch gekennzeichnet, dass der Kategorienbaum für die Wiedergabe seitens einer Anzeigeeinrichtung konsolidiert wird, wobei vorzugsweise eine Ähnlichkeitsüberprüfung erfolgt.

22. Verfahren nach Anspruch 21 , dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung Worte mit unterschiedlichen Wortendungen aber gleichem Wortstamm zu der kürzest möglichen Variante (Wortfassung) zusammengefasst werden.

23. Verfahren nach Anspruch 21 oder Anspruch 22, dadurch gekennzeichnet, dass im Rahmen der Ähnlichkeitsüberprüfung zwei Worte mit unterschiedlicher Länge jeweils verglichen werden, indem das längere Wort um zwei Buchstaben gekürzt wird, das kürzere Wort dann auf die Länge des anderen Wortes gebracht und die beiden Worte dann auf eine Übereinstimmung überprüft.

24. Datenverarbeitungssystem mit Informationen repräsentierenden Daten in wenigstens einem über wenigstens eine Datenquelle zugänglichen Datenbestand, dadurch gekennzeichnet, dass dieses ausgebildet und/oder eingerichtet ist ein Verfahren nach einem der Ansprüche 1 bis 23 zumindest teilweise auszuführen.

25. Datenverarbeitungssystem nach Anspruch 24, gekennzeichnet durch eine graphische Benutzerschnittstelle zur Eingabe und/oder Wiedergabe von Wortlisten, Verknüpfungen und/oder wenigstens einer Ebene wenigstens eines Kategorienbaums.

26. Datenverarbeitungssystem nach Anspruch 25, dadurch gekennzeichnet, dass die graphische Benutzerschnittstelle weiter zur Eingabe, Änderung und/oder Wiedergabe von Informationen repräsentierenden Daten in wenigstens einem Datenbestand ausgebildet und/oder eingerichtet ist.

27. Datenverarbeitungssystem nach einem der Ansprüche 24 bis 26, dadurch gekennzeichnet, dass die Wiedergabe zumindest teilweise in auswählbarer Form erfolgt.

28. Datenverarbeitungssystem nach einem der Ansprüche 24 bis 27, dadurch gekennzeichnet, dass dieses Bestandteil einer Datenbankanwendung ist oder zumindest zusammen mit einer Datenbankanwendung nutzbar ist.

29. Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, dadurch gekennzeichnet, dass diese ausgebildet und/oder eingerichtet ist ein Verfahren nach einem der Ansprüche 1 bis 23 zumindest teilweise auszuführen, vorzugsweise unter Nutzung wenigstens eines Teils eines Datenverarbeitungssystems nach einem der Ansprüche 24 bis 28.

30. Datenverarbeitungsvorrichtung zur elektronischen Verarbeitung von Daten, mit einer Kontroll- und/oder Recheneinheit, einer Eingabeeinheit und einer Ausgabeeinheit, gekennzeichnet durch eine zumindest teilweise gegebene Nutzung eines Datenverarbeitungssystems nach einem der Ansprüche 24 bis 28.

31. Datenverarbeitungsvorrichtung nach Anspruch 29 oder Anspruch 30, dadurch gekennzeichnet, dass diese als mobiles Endgerät ausgebildet ist, vorzugsweise als ein in Mobilfunknetzen nutzbares beziehungsweise betreibbares mobiles Endgerät, besonders bevorzugt als ein Mobilfunktelefon.