DE10055682A1

DE10055682A1 - Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte

Info

Publication number: DE10055682A1
Application number: DE10055682A
Authority: DE
Inventors: Christa Ladewig
Original assignee: Individual
Current assignee: Individual
Priority date: 2000-11-03
Filing date: 2000-11-03
Publication date: 2002-05-08

Abstract

Das Verfahren zur automatischen syntaktischen inhaltlichen Erschließung von elektronischen Texten basiert auf einem Index, dessen Elemente mit einer universellen Aspekt-Klassifikation verknüpft sind, die es erlauben, ein syntaktisches Retrieval durchzuführen. Mit diesen, auf den jeweiligen Suchgegenstand inhaltlich bezogenen Klassifikationselementen, werden die Informationen in Datenbanken mittels bekannter Suchalgorithmen abgefragt und die Ergebnisse entsprechend der Aspektverknüpfung ausgewertet. Mit diesen Aspekten ist es möglich, unbekannte Textdokumente automatisch fachgebiets- und sprachunabhängig nach Inhalten zu klassifizieren und beim Suchen in einem Textcorpus nicht nur auf die Verwendung von Zeichenfolgen angewiesen zu sein, wie im WWW. Der Index kann bei diesen Vorgängen intellektuell und automatisch weiter ausgebaut werden und liefert Ergebnisse im Retrieval von nahezu 100% Precision, bei gleichzeitig nahezu 100% Recall.

Description

Die Erfindung betrifft ein Verfahren zur automatischen syntaktischen inhaltlichen Erschließung und das Retrieval von elektronischen Texten in Computersystemen.

Der Zugriff auf exponentiell wachsende digitale Speicherumfänge bereitet den Nutzern durch den geringen Grad an Ordnung darin immer größere Schwierigkeiten.

Das größte derartige Computernetz, das Internet, ist zur größten Informationsbank der Menschheit geworden, allerdings mit der größten Unordnung. Die Anzahl der verfügbaren Dokumente wird auf ca. 350, Mio, geschätzt. Der Internet Dienst WWW hat dabei die größte Bedeutung erlangt. Die Dokumente liegen als Hypertexte vor und sind multimedial.

Um auf diese Informationen zugreifen zu können, kann eine Browser-Suche oder eine Suche in Suchmaschinen gestartet werden. Durch die Verlinkung von Dokumenten kann man die Suche in Form des "Surfens" durchführen, die eher zufällig ein gewünschtes Ergebnis liefert.

Suchmaschinen liefern dagegen kompakte Ergebnislisten von Dokumenten. Da alle Suchmaschinen nur Zeichenfolgen suchen, sind die Suchergebnisse sehr umfangreich (mehrere Tausend) und ausgesprochen unpräzise. Die Suche erfolgt in einem Index, der durch einfache Invertierung von Dokumententeilen erzeugt wurde.

Intellektuelle inhaltliche Erschließung von Texten erweist sich zunehmend als schwierig und zu teuer angesichts der Speicherung von Volltexten (z. B. im Medienbereich) und erst recht im Internet, das zudem nicht statisch ist, wie eine Datenbank, sondern sehr dynamisch.

Intellektuelle inhaltliche Erschließung beinhaltet auch noch als weiteren Mangel einen starken subjektiven Einfluß, der ihre Vorzüge fast zunichte macht. Um Recall und Precision, die für das Retrieval wichtigen Faktoren, zu optimieren, muß der subjektive Einfluß zurückgedrängt und müssen syntaktische oder semantische Methoden der inhaltlichen Erschließung auch bei automatischem Vorgehen ermöglicht werden. Die vorliegende Erfindung stellt sich daher die Aufgabe, eine Technik zu entwerfen, die universell anwendbar, kostengünstig, qualitativ hochwertig und in der Anwendung simpel ist.

Die Universalität wird durch Verwendung einer eigens dazu entworfenen allgemeinen Aspekt-Klassifikation erreicht, kostengünstig wird die Technik durch Automation der Vorgänge der inhaltlichen Erschließung, qualitativ hochwertig wird die Technik durch die syntaktische Verknüpfung von Indexeinträgen mit den Aspekt-Notationen, was zu nahezu gleichzeitig 100% an Recall und Precision fuhrt, und simpel ist die Anwendung, weil der Nutzer in gewohnter Weise recherchieren kann (alle bisherigen Retrievaltools können parallel zum Einsatz kommen), wobei die Suchanfrage intern sofort umgewandelt wird, so daß der Nutzer die Notationen nicht sieht bzw nicht selbst einsetzen muß.

Diese Aufgabe wird durch die in den Ansprüchen 1 bis 7 gekennzeichnete Erfindung gelöst.

Ausgestaltungen der Erfindung sind in allen abhängigen Ansprüchen gekennzeichnet.

Darstellung 1 Aspekt-Klassifikation.

Darstellung 2 Ausschnitt aus einer Konkordanzliste.

Darstellung 3 Rechercheschema mit vergleichenden Recherchen.

Darstellung 4 Beispielrecherchen im Vergleich.

Darstellung 5 Datenbestand importieren.

Darstellung 6 Konkordanzliste importieren.

Darstellung 7 Indexliste generieren.

Darstellung 8 Suchergebnis bereitstellen.

Die Aspekt-Klassifikation (s. Darstellung 1) besteht aus 29 Hauptklassen, die nach umfangeicher Literaturanalyse als die allgemeinsten und in der Hierarchie an oberster Stelle stehende Begrifflichkeiten ermittelt worden sind. Die Hauptklassen haben zum Teil Unterklassen bis in die 2. Hierarchiestufe.

Die syntaktische Indexierung der Indexbegriffe eines Textcorpus mittels Aspekt-Klassifikation erfolgt zunächst intellektuell. Den Begriffen werden dabei in ihren verschiedenen Wortformen jeweils eine Notation einer semantisch passenden Klasse zugeordnet. Daraus resultiert eine feste Verbindung zwischen Indexbegriff und der Notation (syntaktische Einheit). Diese Zuordnung gilt immer, unbeeinflußt, in welchem Context und in welchem Fachgebiet die Begriffe verwendet werden. Durch den hohen Allgemeinheitsgrad der Klassenbegriffe sind diese Zuordnungen fachgebietsunabhängig. Wären diese Bedingungen nicht erfüllt, könnte keine Automatisierung der Indexierung bzw. Recherche gemäß der Erfindung erfolgen. Die Zuordnungen sind auch sprachunabhängig, weil die Zuordnung semantisch erfolgt, d. h., es ist unbedeutend, mit welcher Zeichenfolge eine Notation verknüpft wird, die Zeichenfolgen müssen nur den gleichen oder einen ähnlichen Begriffs inhalt besitzen, wenn sie die gleiche Notation erhalten sollen.

Begriffe, die nicht bedeutungstragend sind, wie Präpositionen, Bindewörter u. ä., werden nicht syntaktisch indexiert. So wird das Anlegen einer Stoppwortliste überflüssig. Das Ergebnis der intellektuellen syntaktischen Indexierung ist eine Konkordanzliste.

Die Konkordanzliste (s. Darstellung 2) enthält syntaktische Einheiten aller bedeutungstragenden Bezeichnungen eines gegebenen Textcorpus, geordnet nach Notationen. Sie ist die Grundlage für die automatische syntaktische Indexierung bzw. Recherche. Sie muß gemäß der Erweiterung des Textcorpus wachsen (Fortschreibung neuer Begriffe nach dem Update des Textcorpus). Konkordanzlisten können für bestimmte Textcorpora, aber auch für ganze Systeme, wie das Internet, angefertigt werden.

Denkbar ist ebenso die Bearbeitung ganzer Wörterbücher und Lexika, sofern sie elektronisch vorliegen, nach diesem Verfahren. Die Erschließung dieser Literatur mittels automatischer syntaktischer Indexierung erlaubt den Zugriff auf semantische Zusammenhänge und nicht wie bei Registern hauptsächlich auf eine alphabetische Ordnung.

Für die automatische syntaktische Erschließung wird die Konkordanzliste wie folgt eingebunden:
Bei der syntaktischen Recherche (s. Darstellung 3, Anfragetyp 3) gemäß der Erfindung werden zwei Prinzipien angewendet: Die syntaktische Indexierung und die Rechts-/Links-Trunkierung. Ersteres bewirkt eine hohe Präzision (Precision) und Letzteres eine hohe Vollständigkeit (Recall). Auf diese Weise werden bei einem gegebenen Suchwort dessen. Zeichenfolge in der Konkordanzliste aufgesucht und durch die entsprechende syntaktische Einheit ersetzt. Sodann wird die Zeichenfolge rechts-/links trunkiert und in der Konkordanzliste gesucht. Alle Begriffe im Textcorpus, die die Zeichenfolge gemäß dem Suchwort enthalten und gleichzeitig die gleiche Notation besitzen, werden als Treffer angezeigt. Als Treffer erscheinen Begriffe, die semantisch gleich oder ähnlich sind, z. B. generische Unterbegriffe und verschiedene Flexionsformen des Suchbegriffes. Ausgeschlossen als Treffer werden solche Begriffe, die semantisch ungleich sind. Das können Begriffe sein, wo die Zeichenfolge des Suchbegriffes nicht als Lexem enthalten ist, z. B. Ansturm - Turm, oder ein polysemes Kompositum vorliegt, z. B. Ball - Spielball.

Daraus ist ersichtlich, daß zum Teil das Polysemproblem durch das Verfahren gemäß der Erfindung gelöst wird. Die Polysemie/Homogaphie spielt bei dem Verfahren insgesamt eine untergeordnete Rolle, da zwar mitunter zwangsweise Begriffe nur einer Klasse zugeordnet werden, der daraus resultierende Nachteil jedoch durch das Zusammenlassen semantischer Einheiten wieder weitestgehend ausgeglichen wird.

Das Problem der Synonymie wird durch das Verfahren nicht gelöst. Zwar haben Synonyme jeweils die gleiche Notation, es erfolgt aber kein Verweis von einem Synonym auf ein anderes bzw. auf eine Vorzugsbenennung. Dies bleibt künftigen Bearbeitungen vorbehalten.

Bei der Recherchebewertung (s. Darstellungen 3 und 4; Bestimmung der Parameter Precision und Recall) wird daher für die Relevanzbestinunung von einer formalen und nicht von einer semantischen Relevanz ausgegangen. Bei Recherchebewertungen in der Literatur (z. B. TREC, s. Literatur KNORZ, G.) geht man leider häufig von einer subjektiv bestimmten Relevanz aus. Diese liefert keine reproduzierbaren Precision- und Recallwerte und macht damit jegliche Auswertung unwissenschaftlich.

Unsere Rechercheauswertungen, getestet an drei verschiedenen Datenbanken, zeigen, wie gut reproduzierbar und aussagekräftig die Werte sind. Trotz unterschiedlicher Größe und Thematik der Datenbanken liegen die Werte nach dem Verfahren gemäß der Erfindung nach ca. 500 Recherchen im Durchschnitt bei jeder Datenbank etwa im gleichen Bereich (s. a Darstellung 3).

So zeigen Recherchen mit einem konkreten Suchwort (ohne Trunkierung und ohne syntaktische Verknüpfung einfachste Form der Suche) im Durchschnitt einen Summenwert von Precision und Recall von ca. 150% (bei 100% Precision), mit einem rechts-/links-trunkierten Suchwort (größtmögliche Form der Suche; bei 100% Recall) von ca. 160% und mittels automatischer syntaktischer Suche gemäß der Erfindung von beinahe immer 200%. Letzteres stellt das Maximum dar, ein besseres Ergebnis kann nicht erzielt werden.

Das automatische syntaktische Verfahren gemäß der Erfindung kann mit allen anderen bisher bekannten Retrievaltools, wie z. B. Boole'sche und Abstands-Operatoren, sowie einer nachträglichen Gewichtung gemeinsam angewendet werden.

Dabei stellt sich das automatische syntaktische Verfahren als sehr nutzerfreundlich dar, weil wie gewohnt recherchiert werden kann, ohne das die Aspekt-Verknüpfung der Indizes beachtet werden muß. Sie ist für den Nutzer unsichtbar.

Software

Das Programm ist der technische Einsatz des entwickelten Verfahrens. Es handelt sich hierbei um eine Datenbankapplikation, die auf einem vorgegebenen Datenbestand Recherchen ermöglicht. Die Saftware setzt sich dabei aus folgenden Komponenten zusammen:
Datenbank
Programm

Datenbank

Zwecks Recherchemöglichkeiten sind dem Verfahren zwei Datenbestände hinterlegt. Zum einen die Auswahl verschiedener Literaturdaten und zum anderen ein Auszug aus einem Museumsdatenbestand.

Als Datenbanksystem wird derzeit Microsoft Access 97 verwendet. Es besteht allerdings die Möglichkeit über die Ddatenbankunabhängige Schnittstelle ODBC auch auf andere Datenbanksysteme oder Textcorpora zuzugreifen. Ein Zugriff auf Informationen im Internet ist derzeit noch nicht getestet.

Programm

Zur Durchführung der vergleichenden Recherche wurde ein Programm realisiert, das auf den im vorherigen Abschnitt beschriebenen Datenbestand zugreifen kann. Zur Realisierung wurde dabei Microsoft Visual Basic Version 6.0 verwendet. Das System beinhaltet neben der Benutzeroberfläche verschiedene Funktionen zwecks Import und Export von Datenbeständen. Darüber hinaus verfügt das System über eine Funktion, die die Generierung einer Indexliste ermöglicht.

Algorithmus

Dem System in der Version 1.0 liegt folgender Algorithmus zugrunde:

- Datenbestand importieren
- Konkordanzliste importieren
- Indexliste generieren
- Suchergebnis bereitstellen

Datenbestand importieren (s. Darstellung 5)

Jede beliebige Textdatei, die nach folgendem Schema aufgebaut ist,

<Titel<<Trennzeichen<<Text<

kann verarbeitet werden. Als Trennzeichen können Komma, Semikolon oder ein anderes Zeichen verwendet werden.

Die Daten werden nach folgendem Algorithmus verarbeitet:

a) Die Datendatei wird geöffnet.
b) Zeile für Zeile werden die Daten eingelesen.
c) Es wird anhand des Titels geprüft, ob der Text bereits im Datenbestand vorhanden ist.
d) Der Titel und der Text werden eingefügt, falls sich dieses Dokument noch nicht im Datenbestand befindet.
Wurde der Text bereits im Datenbestand gefunden, wird lediglich der Text aktualisiert.
e) Die nächste Zeile wird eingelesen.
f) Sobald alle Zeilen verarbeitet worden sind, wird die Datei geschlossen.

Konkordanzliste importieren (s. Darstellung 6)

Die Konkordanzliste beinhaltet die Verknüpfung von Worten mit der Aspektnotation. Die Datei, die importiert werden kann, muß dabei folgenden Aufbau haben:

<Aspektnotation<<Trennzeichen<<Wort<

Der Import der Konkordanzliste erfolgt nach folgendem Schema:

a) Die Konkordanzlistendatei wird geöffnet.
b) Zeile für Zeile werden die Daten eingelesen.
c) Es wird anhand des Wortes geprüft, ob dieses Wort bereits in der Konkordanzliste enthalten ist.
d) Die Aspektnotation und das Wort werden in die Konkordanzliste aufgenommen, sofern das Wort
e) noch nicht enthalten ist. Befindet sich das Wort bereits in der Konkordanzliste, wird lediglich die
f) Notation aktualisiert.
g) Die nächste Zeile wird eingelesen und analog verarbeitet.
h) Sind alle Zeilen verarbeitet, wird die Datendatei geschlossen.

Indexliste generieren (lt. Darstellung 7)

Aus dem Datenbestand und der Konkordanzliste wird nach folgendem Schema eine Indexliste generiert:

a) Alle Datensätze (Titel und Text) des Datenbestandes werden ermittelt.
b) Es werden die einzelnen Wörter des Datensatzes ermittelt.
c) Für das so gefundene Wort wird geprüft, ob das Wort in der Konkordanzliste vorhanden ist.
d) Befindet sich das Wort in der Konkordanzliste, so werden die Notation, das Wort und die Datensatzadresse in die Indexliste eingefügt. Ist das Wort nicht in der Konkordanzliste enthalten, wird lediglich das Wort und die dazugehörige Datensatzadresse in der Indexliste gespeichert.
e) Das nächste Wort des Datensatzes wird ermittelt und nach dem selben Schema bearbeitet.
f) Der nächste Datensatz wird ermittelt und analog verarbeitet.

Suchergebnis bereitstellen (s. Darstellung 8)

Aus dem Datenbestand, der Konkordanzliste und der Indexliste wird nach folgendem Schema eine Suchanfrage durchgeführt:

a) Das Suchwort mit Aspektnotation in der Konkordanzliste ermitteln.
b) Das gefundene Wort wird anschließend automatisch rechts-/links-trunkiert.
c) Das Suchwort zu b) wird in der Indexliste ermittelt.
d) Es werden nur solche Wörter als Treffer angezeigt, die sowohl in der Zeichenfolge wie auch in der Aspektnotation übereinstimmen.

Literatur

Aboud, M; Chrisment, C.; Razouk, R.;
Sedes, F.; Soule-Dupuy, C.:
Querying a hypertext information retrieval system by the use of classification;
Inf. Process. & Manag.;
29 (1993) 3, S. 387-396;
Frageformulierimg an ein Hypertextinformationretrievalsystem unter Verwendung einer Klassifikation;
Ackmann, R.:
Möglichkeiten einer Standardisierung des Faktendatenbank-Retrievals: Einsatz des Klassifikationssystems;
LANGUAL zur Verbesserung des Zugriffs auf Lebensmitteldaten;
Proceedings, Dtsch. Dokumentartag 1993, Jena, 28. bis 30. Sept. 1993;
S. 301-312;
Arents, H. C.; Bogaerts, W. F. L.:
concept-based retrieval of hypermedia information: From term indexing to semantic hyperindexing;
Inf. Process. & Manag.;
29 (1993) 3, S. 373-386;
Konzept-basiertes Retrieval von Hypermediainformationen: Von der Termindexierung zur semantischen Hyperindexierung;
Atanasiu, P.; Teodoru, V.:
Steps towards a unitary system of ordering;
Probleme de hiformare si Documentare;
26 (1992) 3, S. 148-154;
Baeza-Yates, R.; Navarro, G.:
Block addressing indeces for approximate text retrieval;
J. Am. Soc. Inform. Sci;
51 (2000) 1, S. 69-82;
Geblockte Indizes für ein Näherimgs-Text-Retrieval;
Bauch, St.; Fleischmann, D.:
Gestaltung und Einführung eines Instituts-WWW-Servers mit vielen Autoren;
21. Jahrestagung der Ges. für Klassifikation, Potsdam, 12.-14. März 1997; 10 S.;
Design and Implementation of an instituts W3 server for many authors;
Bearman, D.; Petersen, T.:
Retrieval Requirements of faceted thesaurus in interactive information systems;
Advanees in classification research. - Proceedings der 53. ASIS, Toronto, 4. Nov. 1990; S. 9-23;
Bordoni, L.; Pazienza, M. T.:
Documents Automatic Indexing in an Enviromuental Domain;
Int. Forum Informat. Documentat;
22 (1997) 1, S. 17-28;
Cawkell, A. E.:
Automatic indexing in the Science and Social Science Citation Index CD-ROM;
Electron. Library;
7 (1989) 6, S. 345-350;
Automatisches Indexieren im Science Citation Index "Wissenschaft" und "Sozialwissenschaft" auf CD-ROM;
Chen, Ch.; Rada, R.:
A conceptual model for supporting collaborative authoring and reuse;
Knowl. Org.;
21 (1994) 2, S. 88-93;
Chen, H.; Zliang, Y.; Houston, A. L.:
Semantic indexing and searching using a Hopfield net;
J. Inf. Sc.;
24 (1998) 1, S. 3-18;
Semantisches Indexieren und Suchen in einem Hopfleld Netz;
Cheng, P. T. K; Wu, A. K. W.:
ACS: An automatic classiflcation system;
J. Inf. Sc.;
21 (1995) 4, S. 289-299;
Cochrane, P. A.; Johnson, E. H.:
Visual Dewey: DDC in a hypertextual browser for the library User;
Proc. Fourth Int. ISKO Conference, Washington (USA), 15.-18. Juli 1996;
Frankfurt/M.: INDEKS, 1996. S. 95-106;
Visualisierter Dewey: Die DDC in einem Hypertextbrowser für Bibliotheksbenutzer;
Cohen, J. D.:
Highlights: Language- and Domain-Independent Automatic Indexing Terms for Abstracting;
J. Am Soc. Informat. Sc.;
46 (1995) 3, S. 162-174;
Blickpunkte: sprach- und gebietsunabhängiges automatisch indexierter Terms zum Abstracting;
Dagan, I.:
Automation of information access tasks: Technological trends and opportunities;
Online;
22 (1998) 3, S. 75-78;
Automation des Informationszugriffs: Technologische Trends und Möglichkeiten;
Dahlberg, I.:
Gestaltungsprinzipien und Anforderungskatalog für ein neues universales Ordnungssystem;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen (Fortschr. i. d. Wissensorganisation; 2);
Frankfurt/M.: Indeks Verl., 1992. S. 95-110;
Desai, B. C.; Shinghal, R.; Shayan, N. R.:
Zhou, Y.:
CINDI: A virtual library indexing und discovery System;
Library Trends;
48 (1999) 1, S. 209-233;
CINDI: Ein virtuelles Bibliotheks-indexier- und -find-system;
Forrester, M.:
Indexing in hypertext enviromnents: the role of user models;
The Indexer;
19 (1995) 4, S. 249-256;
Indexieren in Hypertext Umgebung. Die Bedeutung der Nutzermodelle;
Foskett, A. C.:
The Dewey Decimal Classification;
The subject approach to information, 5. Ausg.;
London: Library Ass. Pubt, 1996, S. 256-280;
Die Dewey Dezimalklassifikation;
Foskett, A. C.:
The Universal Decimal Classification;
The subject approach to information. 5. Ausg.;
London: Library Ass. Publ., 1996, S. 281-293;
Die Universal Dezimalklassifikation;
Geißelmann, F.:
Die Online-Version der Regensburger Verbundklassifikation;
Dt. Dokumentartag 1997, Univ. Regensburg, 24. bis 26. Sept 1997;
Frankfurt/M.: DGD, 1997, S. 365-371;
Greiner, G.:
Präkoordination, Präkombination, Postkoordination: Drei Möglichkeiten der Begriffsverknüpfung aus theoretischer und praktischer Sicht
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation - Hrsg.:
Havekost, H.; Wätjen, H.-J. - Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994;
1995, S. 11-17;
Hang Li; Naoki Abe:
Generalizing case frames using a thesaurus and the MDL principle;
Computational Linguistics;
24 (1998) 2, S. 217-244;
Generalisierte Fallframes unter Verwendung eines Thesaurus und des MDL Prinzips;
Hebrail, G.:
The SPHERE project: a step towards more sophisticated information systems;
J. Informat. Sc.;
21 (1995) 6, S. 429-448;
Das SPHERB Projekt: Ein Schritt in Richtung zu einem geistreichen Informationssystem;
Henshaw, R.:
The First Monday metadata project;
Libri;
49 (1999) 3, S. 125-131;
Das First Monday Metadatenprojekt;
Herbst, H.; Knolmayer, G.:
Ansätze zur Klassifikation von Geschäftsregeln;
Wirtschaftsinformatik;
37 (1995) 2, S. 149-159;
Hmeidi, I.; Kanaan. G; Evens, M.:
Design and implementation of automatic indexing for information retrieval with Arabic documents;
J. Amer. Soc. Int Sc.;
48 (1997) 10, S. 867-881;
Design und Implementierung der automatischen Indexierung für das infonnation Retrieval arabischer Dokumente;
Ingenerf, J.; Diedrich, Th.:
Notwendigkeit und Funktionalität eines Terminologieservers in der Medizin;
(1997) 3, S. 6-14;
Jansen, R.:
Thesaurusrelationen als instrumentelle Hilfsmittel für Hypertext und Wissensbanken?;
Nachr. f. Dok;
44 (1993) 1, S. 7-14;
Kampffmeyer, U.; Merkel, B.:
Textretrieval im Intranet;
Nachr. f. Dok;
48 (1997) 3, S. 167-185;
Keim, B.:
Die Standardschlagwortliste als Schlagwortnormdatei der Deutschen Bibliothek;
ABI-Technik;
8 (1988) 4, S. 327-331;
Knorz, G.:
Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger sozialwissenschaftlicher Fachinforniation (GIRT): Bericht über einen Workshop am 12. September 1997 im IZ Sozialwissenschaften, Bonn;
Nachr. f. Dok.;
49 (1998) 2, S. 111-116;
Kracker, M.:
Vom Nutzen unscharfen Begriffswissens: Fuzzy Thesauri für die Unterstützung der Formulierung von Anfragen an Faktendatenbanken;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen: 2. Tagung ISKO Sektion., 15.-18. Okt. 1991;
Frankfurt/M.: INDEKS, 1992, S. 258-264;
Kutschekmanesch, S.; Lutes, B.; Moelle, K;
Thiel, U.; Izeras, K.:
Automated multilingual indexing: A synthesis of rule-based and thesaurus-based methods;
50. Dt. Dokumentartag 1998 "Information und Märkte";
Bonn, 22.-24. 9. 1998;
Automatisches mehrsprachiges Indexieren: Eine Synthese aus rollen- und thesaurusbasierten Methoden;
Ladewig, Ch.:
Grundlagen der inhaltlichen Erschließung
(Schriftenreihe des last für Information und Dokumentation: 1)
1997;
Lemam, A.:
Text structurarion leading to an automatic summary system: RAFI;
Inf. Process. & Manag.;
35 (1999) 2, S. 181-191;
Textstrukturierung, die zu einem automatischen Summary-System führt: RAFI;
Lenski, W.:
Wissensrepräsentation und Sacherschließung in Literaturdatenbanken: Herausforderungen, Realisierungen und Perspektiven am Beispiel der Mathematischen Logik;
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation - Hrsg:
Havekost, H; Wätjen, H. A. - Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994;
1995, S. 48-67;
Lepsky, K.:
Automatische Indexierung zur Erschließung deutschsprachiger Dokumente;
Nachr. f. Dok.;
50 (1999) 6, S. 325-330;
Lienhart, R; Effelsberg, W.:
Automatic text segmentation and text recognition for video indexing;
Multimedia Systems;
8 (2000), S. 69-81;
Automatische Textsegmentierung und -erkennung zur Video-Indexierung;
Maas, H. D.:
Thesaurus als Wissensbasis für Begriffezerlegungen;
Proceedings, Dtsch. Dokumentag 1993, Jena, 28. bis 30. Sept. 1993;
S. 291-300;
Mai, J.-E.:
Deconstructing the indexing process;
Advances in librarianship;
23 (1999), S. 269-298;
Untersuchung des Indexierprozesses;
Mattingley-Scott, M.; Walter, C.:
Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten DE 198 42 320 A1;
16. 9. 1998;
IBM
McMurdo, G.:
How the Internet was indexect;
J. Informat. Sc.;
21 (1995) 6, S. 479-489;
Wie das Internet indexiert wurde;
Mulvany, N. C.:
Software rools for indexing: revisited;
Indexer;
21 (1999) 4, S. 160-163;
Software-Werkzeuge zum Indexieren: Wiederholung;
Nohr, H.:
Internationale Normenklassifikation (ICS);
Nach. f. Dok;
48 (1997) 2, S. 87-90;
Nohr, H.:
Inhaltsanalyse;
Nachr. f. Dok;
50 (1999) 2, S. 69-78;
Palos, S.:
Indexierung, Volltextrecherche und digitale Text Dossiers: Erschließungsmethoden der Pressedokumentation im Test;
Nachr. f. Dok;
50 (1999) 7, S. 413-419;
Park, Y. C.; Choi, K.-S.:
Automatic thesaurus construction using Bayesian networks;
Inf. Process. & Management,
32 (1996) 5, S. 543-553;
Petersohn, H.:
Ein Vorgehensmodell zur systematischen Auswahl von Klassifikationslösungen;
IM;
(1996) 3, S. 30-34;
Picot, N.:
RAMEAU: Sacherschließung in Frankreich und die Rolle der Kunstbibliotheken;
AKMB-news;
5 (1999) 2, S. 4-8;
Pietzsch, E.:
Internet-Objekte: Automatisierte Erschließung und inhaltsbezogene Recherche;
ABI Technik;
17 (1997) 1, S. 13-18;
Pollard, R.:
A hypertext-based thesaurus as a subject browsing aid for bibliographic databases;
Inf. Process. & Manag.;
29 (1993) 3, S. 345-357;
Ein hypertextbasierter Thesaurus als Browserhilfe für bibliographische Dateitanken;
Rada, R.; Wang W.; Birchal, A.:
Retrieval hierarchies in Hypertext
Inf. Process. & Manag.;
29 (1993) 3, S. 359-371;
Retrievalhierarchien in Hypertext;
Reisser, M.:
Die Darstellung begrifflicher Kontexte im Online-Retrieval;
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation; Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994 der Ges. für Klassifikation;
Oldenburg: BIS, 1995, S. 253-279;
Riplinger, Th.:
Syntaktische Indexierung durch Aspektkodierung: Zukunft der Eppelsheimer Methode;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen (Fortschritte i. d. Wiss.org.: 2);
Frankfurt/M.: Indeks Verl., 1992, S. 217-227;
Ruge, G.; Goeser, S.:
Information Retrieval ohne Linguistik?;
Nachr. f. Dok;
49 (1998) 6, S. 361-369;
Rusch-Feja, D.:
Ein "Clearinghouse"-Konzept für Fachinformationen aus dem Internet oder wie man aus dem Chaos sinnvolle Informationsvermittlung betreibt;
ABI-Technik;
16 (1996) 2, S. 143-156;
Rusch-Feja, D.:
Mehr Qualität im Internet: Entwicklung und Implementierung von Metadaten;
Proceedings, 19. Online-Tagung der DGD: Die Zukunft der Recherche; Rechte, Ressourcen und Referenzen;
Frankfurt am Main, 14. bis 16. Mai 1997;
1997, S. 113-130;
Salm, H.:
Datenbankanbindung über das Internet: Eine Projektlösung im Wandel der Zeit;
ABI-Technik;
17 (1997) 1, S. 51-54;
Sarre, F.; Güntzner, U.; Myka, A.; Jüttner, G.:
Maschinelles Lernen von Relationen für Thesauri und Hypertext;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen: 2. Tagung ISKO Sektion . . ., 15.-18. Okt. 1991;
Frankfurt/M.: INDEKS, 1992. S. 265-276;
Schmitz-Esser, W.:
Thesaurus, frischer Anlauf: Lexikographisch, mehrsprachig, maschinengängig, universal, fr Informationslinguistik und Information Retrieval; Vorstellung eines im KTF erarbeiteten, neuen Thesauruskonzepts;
Proceedings, Dtsch. Dokumentartag 1993, Jena, 28. bis 30. Sept. 1993;
S. 261-274;
Schütze, H.; Pedersen, J. O.:
A cooccurrence-based thesaurus and two applications to information retrieval;
Inf. Process. & Manag.;
33 (1997) 3, S. 307-318;
Ein Ähnlichkeitsthesaurus und zwei Anwendungen im Information Retrieval;
Schwantner, M.:
AIR/PHYS - Automatische Indexierung in der Praxis;
Wissensbasierte Informationssysteme und Informationsmanagement, Proc, 2. Int. Symp. für Inf.-wiss. u. 17. Int. Koll. für Inf. und Dok;
Erfurt, 1991, S. 320-332;
Seelbach, H. E.:
Symbiose zwischen Thesaurus und Boolescher Algebra auf WWW-Browsern: Das Internet ernst nehmen;
ABI-Technik;
17 (1997), S. 330-336;
Skorsky, M.:
Graphische Darstellung eines Thesaurus;
Dt. Dokumentartag 1997, Univ. Regensburg, 24. bis 26. Sept 1997;
Frankfurt/M.: DGD, 1997, S. 119-125;
Stock, M.:
Standard-Thesaurus Wirtschaft: Ein neuer Standard der Wirtschaftsinformation?;
Password;
(1999) 1, S. 22-29;
Stock, W. G.:
Endnutzersystem für internationale Geschäftsinformationen;
Password;
(1998) 10, S. 22-28;
Stock, W. G.:
Natürlichsprachige Suche - more like this!;
Password;
(1998) 11, S. 21-28;
Stock, W. G.:
Intellektuelles Indexieren für Buchregister und Inhouse-Datenbanken: Robert Fugmann, Inhaltserschließung durch Indexieren: Prinzipien und Praxis;
Password;
(1999) 7/8, S. 26-27;
Tzeras, K; Reiss, P.:
Zur Beziehung zwischen Entwicklungsaufwand und Leistungsfähigkeit eines Wörterbuches für die automatische Indexierung;
Wissensbas. Inf.systeme u. Inf.management. Proc. 2. Int. Symp. f. Infwiss. (ISI 91);
Konstanz: Univ.verl., 1991, S. 167-181;
Viegener, J.; Maurer, A.:
Ein Ansatz zur Dynamisierung von Thesauri in Informationssystemen;
Nachr. f. Dok;
44 (1993) 5, S. 285-292;
Weigel, U.:
Konturen der digitalen Revolution im Informations- und Bibliothekswesen: ASIS-Konferenz 1996 in San Diego (USA);
ABI Technik;
16 (1996) 4, S. 393-396;
Weihs, E.:
Zur Klassifikation umweltbezogener Daten im Rahmen des Bayerischen Umweltinformationssystems an Hand eines objektorientierten Ansatzes;
Nachr. f. Dok;
47 (1996) 6, S. 361-367;
Willenborg, J.:
Hypermediabasierte Terminologie- und Wörterbuchpflege;
Dt. Dokumentartag 1992, Berlin, 22.-25. Sept. 1992;
S. 379-408;
Wright, J. C.:
How to index online;
Indexer;
20 (1997) 3, S. 115-120;
Wie kommt man zum Online-Index?;
Yoshida, S.:
Construction of library and information science thesaurus;
Int. Inf. Communicat. Educ.;
12 (1993) 2, S. 166-171;
Young, P. F.:
Vokabulare: Mehr Ansetzungslisten: vom Stichwort zum Begriff;
AKMB-news;
5 (1999) 2, S. 8-12;
Zerbst, H.-J.:
Zum Verhältnis von Basisklassifikation und RSWK am Beispiel des Bibliotheksverbundes Niedersachsen/ Sachsenanhalt;
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation; Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994 der Ges. für Klassifikation;
Oldenburg: BIS, 1995, S. 163-173;
Zimmermann, H. H.:
Anmerkungen zur Neugestaltung der DIN 1463 (Thesauri);
Kognitive Ansätze zum Ordnen und Darstellen von Wissen: 2. Tagung ISKO Sektion . . ., 15.-18. Okt. 1991;
Frankfurt/M.: LNDEKS, 1992, S. 313-321;
Zimmermann, H. H.:
Aspektierung von Thesaurus-Relationen: Öffnung in universale Anwendbarkeit?;
Proceedings, Dtsch. Dokumentartag 1993, Jena, 28. bis 30. Sept. 1993;
S. 275-290.

Claims

1. Verfahren zur automatischen syntaktischen Indexierung von Text-Dokumenten unter Verwendung eines elektronischen Index mit syntaktischer Verknüpfung, dadurch gekennzeichnet; daß eine allgemeine Aspekt- Klassifikation erstellt wird, Begriffe eines Index eines Textcorpus intellektuell mit den semantisch entsprechenden Notationen der Aspekt-Klassifikation zu einer syntaktischen Einheit verknüpft werden und so eine Konkordanzliste erzeugt wird. Diese Konkordanzliste kann nun zur automatischen syntaktischen Erschließung von Textcorpora mit gleichem Vokabular verwendet werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Aspektnotation zusammen mit der Datensatzadresse in der Indexliste gespeichert wird.

3. Verfahren zur syntaktischen Recherche in Textcorpora, dadurch gekennzeichnet, daß die Suchen mit Aspektnotationen erfolgen.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Suchwort nach Ermittlung in der Konkordanzliste automatisch rechts-/links-trunkiert wird.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß so in der Indexliste gesucht wird.

6. Verfahren zur Umwandlung normaler Suchanfragen, dadurch gekennzeichnet, daß der Nutzer mit den gewohnten Retrievaltools anfragen kann und die Suchanfrage im Hintergrund entsprechend der syntaktischen Recherche umgewandelt wird gemäß Anspruch 4.

7. Verfahren zur Suchergebnisdarstellung, dadurch gekennzeichnet, daß die Titel der gefundenen Dokumente und die syntaktische Verknüpfung von Suchwort und Notation der Aspekt-Klassifikation angezeigt werden