DE10055682A1 - Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte - Google Patents

Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte

Info

Publication number
DE10055682A1
DE10055682A1 DE10055682A DE10055682A DE10055682A1 DE 10055682 A1 DE10055682 A1 DE 10055682A1 DE 10055682 A DE10055682 A DE 10055682A DE 10055682 A DE10055682 A DE 10055682A DE 10055682 A1 DE10055682 A1 DE 10055682A1
Authority
DE
Germany
Prior art keywords
indexing
syntactic
search
text
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10055682A
Other languages
English (en)
Inventor
Christa Ladewig
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE10055682A priority Critical patent/DE10055682A1/de
Publication of DE10055682A1 publication Critical patent/DE10055682A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Das Verfahren zur automatischen syntaktischen inhaltlichen Erschließung von elektronischen Texten basiert auf einem Index, dessen Elemente mit einer universellen Aspekt-Klassifikation verknüpft sind, die es erlauben, ein syntaktisches Retrieval durchzuführen. Mit diesen, auf den jeweiligen Suchgegenstand inhaltlich bezogenen Klassifikationselementen, werden die Informationen in Datenbanken mittels bekannter Suchalgorithmen abgefragt und die Ergebnisse entsprechend der Aspektverknüpfung ausgewertet. Mit diesen Aspekten ist es möglich, unbekannte Textdokumente automatisch fachgebiets- und sprachunabhängig nach Inhalten zu klassifizieren und beim Suchen in einem Textcorpus nicht nur auf die Verwendung von Zeichenfolgen angewiesen zu sein, wie im WWW. Der Index kann bei diesen Vorgängen intellektuell und automatisch weiter ausgebaut werden und liefert Ergebnisse im Retrieval von nahezu 100% Precision, bei gleichzeitig nahezu 100% Recall.

Description

Die Erfindung betrifft ein Verfahren zur automatischen syntaktischen inhaltlichen Erschließung und das Retrieval von elektronischen Texten in Computersystemen.
Der Zugriff auf exponentiell wachsende digitale Speicherumfänge bereitet den Nutzern durch den geringen Grad an Ordnung darin immer größere Schwierigkeiten.
Das größte derartige Computernetz, das Internet, ist zur größten Informationsbank der Menschheit geworden, allerdings mit der größten Unordnung. Die Anzahl der verfügbaren Dokumente wird auf ca. 350,­ Mio, geschätzt. Der Internet Dienst WWW hat dabei die größte Bedeutung erlangt. Die Dokumente liegen als Hypertexte vor und sind multimedial.
Um auf diese Informationen zugreifen zu können, kann eine Browser-Suche oder eine Suche in Suchmaschinen gestartet werden. Durch die Verlinkung von Dokumenten kann man die Suche in Form des "Surfens" durchführen, die eher zufällig ein gewünschtes Ergebnis liefert.
Suchmaschinen liefern dagegen kompakte Ergebnislisten von Dokumenten. Da alle Suchmaschinen nur Zeichenfolgen suchen, sind die Suchergebnisse sehr umfangreich (mehrere Tausend) und ausgesprochen unpräzise. Die Suche erfolgt in einem Index, der durch einfache Invertierung von Dokumententeilen erzeugt wurde.
Intellektuelle inhaltliche Erschließung von Texten erweist sich zunehmend als schwierig und zu teuer angesichts der Speicherung von Volltexten (z. B. im Medienbereich) und erst recht im Internet, das zudem nicht statisch ist, wie eine Datenbank, sondern sehr dynamisch.
Intellektuelle inhaltliche Erschließung beinhaltet auch noch als weiteren Mangel einen starken subjektiven Einfluß, der ihre Vorzüge fast zunichte macht. Um Recall und Precision, die für das Retrieval wichtigen Faktoren, zu optimieren, muß der subjektive Einfluß zurückgedrängt und müssen syntaktische oder semantische Methoden der inhaltlichen Erschließung auch bei automatischem Vorgehen ermöglicht werden. Die vorliegende Erfindung stellt sich daher die Aufgabe, eine Technik zu entwerfen, die universell anwendbar, kostengünstig, qualitativ hochwertig und in der Anwendung simpel ist.
Die Universalität wird durch Verwendung einer eigens dazu entworfenen allgemeinen Aspekt-Klassifikation erreicht, kostengünstig wird die Technik durch Automation der Vorgänge der inhaltlichen Erschließung, qualitativ hochwertig wird die Technik durch die syntaktische Verknüpfung von Indexeinträgen mit den Aspekt-Notationen, was zu nahezu gleichzeitig 100% an Recall und Precision fuhrt, und simpel ist die Anwendung, weil der Nutzer in gewohnter Weise recherchieren kann (alle bisherigen Retrievaltools können parallel zum Einsatz kommen), wobei die Suchanfrage intern sofort umgewandelt wird, so daß der Nutzer die Notationen nicht sieht bzw nicht selbst einsetzen muß.
Diese Aufgabe wird durch die in den Ansprüchen 1 bis 7 gekennzeichnete Erfindung gelöst.
Ausgestaltungen der Erfindung sind in allen abhängigen Ansprüchen gekennzeichnet.
Darstellung 1 Aspekt-Klassifikation.
Darstellung 2 Ausschnitt aus einer Konkordanzliste.
Darstellung 3 Rechercheschema mit vergleichenden Recherchen.
Darstellung 4 Beispielrecherchen im Vergleich.
Darstellung 5 Datenbestand importieren.
Darstellung 6 Konkordanzliste importieren.
Darstellung 7 Indexliste generieren.
Darstellung 8 Suchergebnis bereitstellen.
Die Aspekt-Klassifikation (s. Darstellung 1) besteht aus 29 Hauptklassen, die nach umfangeicher Literaturanalyse als die allgemeinsten und in der Hierarchie an oberster Stelle stehende Begrifflichkeiten ermittelt worden sind. Die Hauptklassen haben zum Teil Unterklassen bis in die 2. Hierarchiestufe.
Die syntaktische Indexierung der Indexbegriffe eines Textcorpus mittels Aspekt-Klassifikation erfolgt zunächst intellektuell. Den Begriffen werden dabei in ihren verschiedenen Wortformen jeweils eine Notation einer semantisch passenden Klasse zugeordnet. Daraus resultiert eine feste Verbindung zwischen Indexbegriff und der Notation (syntaktische Einheit). Diese Zuordnung gilt immer, unbeeinflußt, in welchem Context und in welchem Fachgebiet die Begriffe verwendet werden. Durch den hohen Allgemeinheitsgrad der Klassenbegriffe sind diese Zuordnungen fachgebietsunabhängig. Wären diese Bedingungen nicht erfüllt, könnte keine Automatisierung der Indexierung bzw. Recherche gemäß der Erfindung erfolgen. Die Zuordnungen sind auch sprachunabhängig, weil die Zuordnung semantisch erfolgt, d. h., es ist unbedeutend, mit welcher Zeichenfolge eine Notation verknüpft wird, die Zeichenfolgen müssen nur den gleichen oder einen ähnlichen Begriffs­ inhalt besitzen, wenn sie die gleiche Notation erhalten sollen.
Begriffe, die nicht bedeutungstragend sind, wie Präpositionen, Bindewörter u. ä., werden nicht syntaktisch indexiert. So wird das Anlegen einer Stoppwortliste überflüssig. Das Ergebnis der intellektuellen syntaktischen Indexierung ist eine Konkordanzliste.
Die Konkordanzliste (s. Darstellung 2) enthält syntaktische Einheiten aller bedeutungstragenden Bezeichnungen eines gegebenen Textcorpus, geordnet nach Notationen. Sie ist die Grundlage für die automatische syntaktische Indexierung bzw. Recherche. Sie muß gemäß der Erweiterung des Textcorpus wachsen (Fortschreibung neuer Begriffe nach dem Update des Textcorpus). Konkordanzlisten können für bestimmte Textcorpora, aber auch für ganze Systeme, wie das Internet, angefertigt werden.
Denkbar ist ebenso die Bearbeitung ganzer Wörterbücher und Lexika, sofern sie elektronisch vorliegen, nach diesem Verfahren. Die Erschließung dieser Literatur mittels automatischer syntaktischer Indexierung erlaubt den Zugriff auf semantische Zusammenhänge und nicht wie bei Registern hauptsächlich auf eine alphabetische Ordnung.
Für die automatische syntaktische Erschließung wird die Konkordanzliste wie folgt eingebunden:
Bei der syntaktischen Recherche (s. Darstellung 3, Anfragetyp 3) gemäß der Erfindung werden zwei Prinzipien angewendet: Die syntaktische Indexierung und die Rechts-/Links-Trunkierung. Ersteres bewirkt eine hohe Präzision (Precision) und Letzteres eine hohe Vollständigkeit (Recall). Auf diese Weise werden bei einem gegebenen Suchwort dessen. Zeichenfolge in der Konkordanzliste aufgesucht und durch die entsprechende syntaktische Einheit ersetzt. Sodann wird die Zeichenfolge rechts-/links trunkiert und in der Konkordanzliste gesucht. Alle Begriffe im Textcorpus, die die Zeichenfolge gemäß dem Suchwort enthalten und gleichzeitig die gleiche Notation besitzen, werden als Treffer angezeigt. Als Treffer erscheinen Begriffe, die semantisch gleich oder ähnlich sind, z. B. generische Unterbegriffe und verschiedene Flexionsformen des Suchbegriffes. Ausgeschlossen als Treffer werden solche Begriffe, die semantisch ungleich sind. Das können Begriffe sein, wo die Zeichenfolge des Suchbegriffes nicht als Lexem enthalten ist, z. B. Ansturm - Turm, oder ein polysemes Kompositum vorliegt, z. B. Ball - Spielball.
Daraus ist ersichtlich, daß zum Teil das Polysemproblem durch das Verfahren gemäß der Erfindung gelöst wird. Die Polysemie/Homogaphie spielt bei dem Verfahren insgesamt eine untergeordnete Rolle, da zwar mitunter zwangsweise Begriffe nur einer Klasse zugeordnet werden, der daraus resultierende Nachteil jedoch durch das Zusammenlassen semantischer Einheiten wieder weitestgehend ausgeglichen wird.
Das Problem der Synonymie wird durch das Verfahren nicht gelöst. Zwar haben Synonyme jeweils die gleiche Notation, es erfolgt aber kein Verweis von einem Synonym auf ein anderes bzw. auf eine Vorzugsbenennung. Dies bleibt künftigen Bearbeitungen vorbehalten.
Bei der Recherchebewertung (s. Darstellungen 3 und 4; Bestimmung der Parameter Precision und Recall) wird daher für die Relevanzbestinunung von einer formalen und nicht von einer semantischen Relevanz ausgegangen. Bei Recherchebewertungen in der Literatur (z. B. TREC, s. Literatur KNORZ, G.) geht man leider häufig von einer subjektiv bestimmten Relevanz aus. Diese liefert keine reproduzierbaren Precision- und Recallwerte und macht damit jegliche Auswertung unwissenschaftlich.
Unsere Rechercheauswertungen, getestet an drei verschiedenen Datenbanken, zeigen, wie gut reproduzierbar und aussagekräftig die Werte sind. Trotz unterschiedlicher Größe und Thematik der Datenbanken liegen die Werte nach dem Verfahren gemäß der Erfindung nach ca. 500 Recherchen im Durchschnitt bei jeder Datenbank etwa im gleichen Bereich (s. a Darstellung 3).
So zeigen Recherchen mit einem konkreten Suchwort (ohne Trunkierung und ohne syntaktische Verknüpfung einfachste Form der Suche) im Durchschnitt einen Summenwert von Precision und Recall von ca. 150% (bei 100% Precision), mit einem rechts-/links-trunkierten Suchwort (größtmögliche Form der Suche; bei 100% Recall) von ca. 160% und mittels automatischer syntaktischer Suche gemäß der Erfindung von beinahe immer 200%. Letzteres stellt das Maximum dar, ein besseres Ergebnis kann nicht erzielt werden.
Das automatische syntaktische Verfahren gemäß der Erfindung kann mit allen anderen bisher bekannten Retrievaltools, wie z. B. Boole'sche und Abstands-Operatoren, sowie einer nachträglichen Gewichtung gemeinsam angewendet werden.
Dabei stellt sich das automatische syntaktische Verfahren als sehr nutzerfreundlich dar, weil wie gewohnt recherchiert werden kann, ohne das die Aspekt-Verknüpfung der Indizes beachtet werden muß. Sie ist für den Nutzer unsichtbar.
Software
Das Programm ist der technische Einsatz des entwickelten Verfahrens. Es handelt sich hierbei um eine Datenbankapplikation, die auf einem vorgegebenen Datenbestand Recherchen ermöglicht. Die Saftware setzt sich dabei aus folgenden Komponenten zusammen:
Datenbank
Programm
Datenbank
Zwecks Recherchemöglichkeiten sind dem Verfahren zwei Datenbestände hinterlegt. Zum einen die Auswahl verschiedener Literaturdaten und zum anderen ein Auszug aus einem Museumsdatenbestand.
Als Datenbanksystem wird derzeit Microsoft Access 97 verwendet. Es besteht allerdings die Möglichkeit über die Ddatenbankunabhängige Schnittstelle ODBC auch auf andere Datenbanksysteme oder Textcorpora zuzugreifen. Ein Zugriff auf Informationen im Internet ist derzeit noch nicht getestet.
Programm
Zur Durchführung der vergleichenden Recherche wurde ein Programm realisiert, das auf den im vorherigen Abschnitt beschriebenen Datenbestand zugreifen kann. Zur Realisierung wurde dabei Microsoft Visual Basic Version 6.0 verwendet. Das System beinhaltet neben der Benutzeroberfläche verschiedene Funktionen zwecks Import und Export von Datenbeständen. Darüber hinaus verfügt das System über eine Funktion, die die Generierung einer Indexliste ermöglicht.
Algorithmus
Dem System in der Version 1.0 liegt folgender Algorithmus zugrunde:
  • - Datenbestand importieren
  • - Konkordanzliste importieren
  • - Indexliste generieren
  • - Suchergebnis bereitstellen
Datenbestand importieren (s. Darstellung 5)
Jede beliebige Textdatei, die nach folgendem Schema aufgebaut ist,
<Titel<<Trennzeichen<<Text<
kann verarbeitet werden. Als Trennzeichen können Komma, Semikolon oder ein anderes Zeichen verwendet werden.
Die Daten werden nach folgendem Algorithmus verarbeitet:
  • a) Die Datendatei wird geöffnet.
  • b) Zeile für Zeile werden die Daten eingelesen.
  • c) Es wird anhand des Titels geprüft, ob der Text bereits im Datenbestand vorhanden ist.
  • d) Der Titel und der Text werden eingefügt, falls sich dieses Dokument noch nicht im Datenbestand befindet.
    Wurde der Text bereits im Datenbestand gefunden, wird lediglich der Text aktualisiert.
  • e) Die nächste Zeile wird eingelesen.
  • f) Sobald alle Zeilen verarbeitet worden sind, wird die Datei geschlossen.
Konkordanzliste importieren (s. Darstellung 6)
Die Konkordanzliste beinhaltet die Verknüpfung von Worten mit der Aspektnotation. Die Datei, die importiert werden kann, muß dabei folgenden Aufbau haben:
<Aspektnotation<<Trennzeichen<<Wort<
Der Import der Konkordanzliste erfolgt nach folgendem Schema:
  • a) Die Konkordanzlistendatei wird geöffnet.
  • b) Zeile für Zeile werden die Daten eingelesen.
  • c) Es wird anhand des Wortes geprüft, ob dieses Wort bereits in der Konkordanzliste enthalten ist.
  • d) Die Aspektnotation und das Wort werden in die Konkordanzliste aufgenommen, sofern das Wort
  • e) noch nicht enthalten ist. Befindet sich das Wort bereits in der Konkordanzliste, wird lediglich die
  • f) Notation aktualisiert.
  • g) Die nächste Zeile wird eingelesen und analog verarbeitet.
  • h) Sind alle Zeilen verarbeitet, wird die Datendatei geschlossen.
Indexliste generieren (lt. Darstellung 7)
Aus dem Datenbestand und der Konkordanzliste wird nach folgendem Schema eine Indexliste generiert:
  • a) Alle Datensätze (Titel und Text) des Datenbestandes werden ermittelt.
  • b) Es werden die einzelnen Wörter des Datensatzes ermittelt.
  • c) Für das so gefundene Wort wird geprüft, ob das Wort in der Konkordanzliste vorhanden ist.
  • d) Befindet sich das Wort in der Konkordanzliste, so werden die Notation, das Wort und die Datensatzadresse in die Indexliste eingefügt. Ist das Wort nicht in der Konkordanzliste enthalten, wird lediglich das Wort und die dazugehörige Datensatzadresse in der Indexliste gespeichert.
  • e) Das nächste Wort des Datensatzes wird ermittelt und nach dem selben Schema bearbeitet.
  • f) Der nächste Datensatz wird ermittelt und analog verarbeitet.
Suchergebnis bereitstellen (s. Darstellung 8)
Aus dem Datenbestand, der Konkordanzliste und der Indexliste wird nach folgendem Schema eine Suchanfrage durchgeführt:
  • a) Das Suchwort mit Aspektnotation in der Konkordanzliste ermitteln.
  • b) Das gefundene Wort wird anschließend automatisch rechts-/links-trunkiert.
  • c) Das Suchwort zu b) wird in der Indexliste ermittelt.
  • d) Es werden nur solche Wörter als Treffer angezeigt, die sowohl in der Zeichenfolge wie auch in der Aspektnotation übereinstimmen.
Literatur
Aboud, M; Chrisment, C.; Razouk, R.;
Sedes, F.; Soule-Dupuy, C.:
Querying a hypertext information retrieval system by the use of classification;
Inf. Process. & Manag.;
29 (1993) 3, S. 387-396;
Frageformulierimg an ein Hypertextinformationretrievalsystem unter Verwendung einer Klassifikation;
Ackmann, R.:
Möglichkeiten einer Standardisierung des Faktendatenbank-Retrievals: Einsatz des Klassifikationssystems;
LANGUAL zur Verbesserung des Zugriffs auf Lebensmitteldaten;
Proceedings, Dtsch. Dokumentartag 1993, Jena, 28. bis 30. Sept. 1993;
S. 301-312;
Arents, H. C.; Bogaerts, W. F. L.:
concept-based retrieval of hypermedia information: From term indexing to semantic hyperindexing;
Inf. Process. & Manag.;
29 (1993) 3, S. 373-386;
Konzept-basiertes Retrieval von Hypermediainformationen: Von der Termindexierung zur semantischen Hyperindexierung;
Atanasiu, P.; Teodoru, V.:
Steps towards a unitary system of ordering;
Probleme de hiformare si Documentare;
26 (1992) 3, S. 148-154;
Baeza-Yates, R.; Navarro, G.:
Block addressing indeces for approximate text retrieval;
J. Am. Soc. Inform. Sci;
51 (2000) 1, S. 69-82;
Geblockte Indizes für ein Näherimgs-Text-Retrieval;
Bauch, St.; Fleischmann, D.:
Gestaltung und Einführung eines Instituts-WWW-Servers mit vielen Autoren;
21. Jahrestagung der Ges. für Klassifikation, Potsdam, 12.-14. März 1997; 10 S.;
Design and Implementation of an instituts W3 server for many authors;
Bearman, D.; Petersen, T.:
Retrieval Requirements of faceted thesaurus in interactive information systems;
Advanees in classification research. - Proceedings der 53. ASIS, Toronto, 4. Nov. 1990; S. 9-23;
Bordoni, L.; Pazienza, M. T.:
Documents Automatic Indexing in an Enviromuental Domain;
Int. Forum Informat. Documentat;
22 (1997) 1, S. 17-28;
Cawkell, A. E.:
Automatic indexing in the Science and Social Science Citation Index CD-ROM;
Electron. Library;
7 (1989) 6, S. 345-350;
Automatisches Indexieren im Science Citation Index "Wissenschaft" und "Sozialwissenschaft" auf CD-ROM;
Chen, Ch.; Rada, R.:
A conceptual model for supporting collaborative authoring and reuse;
Knowl. Org.;
21 (1994) 2, S. 88-93;
Chen, H.; Zliang, Y.; Houston, A. L.:
Semantic indexing and searching using a Hopfield net;
J. Inf. Sc.;
24 (1998) 1, S. 3-18;
Semantisches Indexieren und Suchen in einem Hopfleld Netz;
Cheng, P. T. K; Wu, A. K. W.:
ACS: An automatic classiflcation system;
J. Inf. Sc.;
21 (1995) 4, S. 289-299;
Cochrane, P. A.; Johnson, E. H.:
Visual Dewey: DDC in a hypertextual browser for the library User;
Proc. Fourth Int. ISKO Conference, Washington (USA), 15.-18. Juli 1996;
Frankfurt/M.: INDEKS, 1996. S. 95-106;
Visualisierter Dewey: Die DDC in einem Hypertextbrowser für Bibliotheksbenutzer;
Cohen, J. D.:
Highlights: Language- and Domain-Independent Automatic Indexing Terms for Abstracting;
J. Am Soc. Informat. Sc.;
46 (1995) 3, S. 162-174;
Blickpunkte: sprach- und gebietsunabhängiges automatisch indexierter Terms zum Abstracting;
Dagan, I.:
Automation of information access tasks: Technological trends and opportunities;
Online;
22 (1998) 3, S. 75-78;
Automation des Informationszugriffs: Technologische Trends und Möglichkeiten;
Dahlberg, I.:
Gestaltungsprinzipien und Anforderungskatalog für ein neues universales Ordnungssystem;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen (Fortschr. i. d. Wissensorganisation; 2);
Frankfurt/M.: Indeks Verl., 1992. S. 95-110;
Desai, B. C.; Shinghal, R.; Shayan, N. R.:
Zhou, Y.:
CINDI: A virtual library indexing und discovery System;
Library Trends;
48 (1999) 1, S. 209-233;
CINDI: Ein virtuelles Bibliotheks-indexier- und -find-system;
Forrester, M.:
Indexing in hypertext enviromnents: the role of user models;
The Indexer;
19 (1995) 4, S. 249-256;
Indexieren in Hypertext Umgebung. Die Bedeutung der Nutzermodelle;
Foskett, A. C.:
The Dewey Decimal Classification;
The subject approach to information, 5. Ausg.;
London: Library Ass. Pubt, 1996, S. 256-280;
Die Dewey Dezimalklassifikation;
Foskett, A. C.:
The Universal Decimal Classification;
The subject approach to information. 5. Ausg.;
London: Library Ass. Publ., 1996, S. 281-293;
Die Universal Dezimalklassifikation;
Geißelmann, F.:
Die Online-Version der Regensburger Verbundklassifikation;
Dt. Dokumentartag 1997, Univ. Regensburg, 24. bis 26. Sept 1997;
Frankfurt/M.: DGD, 1997, S. 365-371;
Greiner, G.:
Präkoordination, Präkombination, Postkoordination: Drei Möglichkeiten der Begriffsverknüpfung aus theoretischer und praktischer Sicht
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation - Hrsg.:
Havekost, H.; Wätjen, H.-J. - Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994;
1995, S. 11-17;
Hang Li; Naoki Abe:
Generalizing case frames using a thesaurus and the MDL principle;
Computational Linguistics;
24 (1998) 2, S. 217-244;
Generalisierte Fallframes unter Verwendung eines Thesaurus und des MDL Prinzips;
Hebrail, G.:
The SPHERE project: a step towards more sophisticated information systems;
J. Informat. Sc.;
21 (1995) 6, S. 429-448;
Das SPHERB Projekt: Ein Schritt in Richtung zu einem geistreichen Informationssystem;
Henshaw, R.:
The First Monday metadata project;
Libri;
49 (1999) 3, S. 125-131;
Das First Monday Metadatenprojekt;
Herbst, H.; Knolmayer, G.:
Ansätze zur Klassifikation von Geschäftsregeln;
Wirtschaftsinformatik;
37 (1995) 2, S. 149-159;
Hmeidi, I.; Kanaan. G; Evens, M.:
Design and implementation of automatic indexing for information retrieval with Arabic documents;
J. Amer. Soc. Int Sc.;
48 (1997) 10, S. 867-881;
Design und Implementierung der automatischen Indexierung für das infonnation Retrieval arabischer Dokumente;
Ingenerf, J.; Diedrich, Th.:
Notwendigkeit und Funktionalität eines Terminologieservers in der Medizin;
(1997) 3, S. 6-14;
Jansen, R.:
Thesaurusrelationen als instrumentelle Hilfsmittel für Hypertext und Wissensbanken?;
Nachr. f. Dok;
44 (1993) 1, S. 7-14;
Kampffmeyer, U.; Merkel, B.:
Textretrieval im Intranet;
Nachr. f. Dok;
48 (1997) 3, S. 167-185;
Keim, B.:
Die Standardschlagwortliste als Schlagwortnormdatei der Deutschen Bibliothek;
ABI-Technik;
8 (1988) 4, S. 327-331;
Knorz, G.:
Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger sozialwissenschaftlicher Fachinforniation (GIRT): Bericht über einen Workshop am 12. September 1997 im IZ Sozialwissenschaften, Bonn;
Nachr. f. Dok.;
49 (1998) 2, S. 111-116;
Kracker, M.:
Vom Nutzen unscharfen Begriffswissens: Fuzzy Thesauri für die Unterstützung der Formulierung von Anfragen an Faktendatenbanken;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen: 2. Tagung ISKO Sektion., 15.-18. Okt. 1991;
Frankfurt/M.: INDEKS, 1992, S. 258-264;
Kutschekmanesch, S.; Lutes, B.; Moelle, K;
Thiel, U.; Izeras, K.:
Automated multilingual indexing: A synthesis of rule-based and thesaurus-based methods;
50. Dt. Dokumentartag 1998 "Information und Märkte";
Bonn, 22.-24. 9. 1998;
Automatisches mehrsprachiges Indexieren: Eine Synthese aus rollen- und thesaurusbasierten Methoden;
Ladewig, Ch.:
Grundlagen der inhaltlichen Erschließung
(Schriftenreihe des last für Information und Dokumentation: 1)
1997;
Lemam, A.:
Text structurarion leading to an automatic summary system: RAFI;
Inf. Process. & Manag.;
35 (1999) 2, S. 181-191;
Textstrukturierung, die zu einem automatischen Summary-System führt: RAFI;
Lenski, W.:
Wissensrepräsentation und Sacherschließung in Literaturdatenbanken: Herausforderungen, Realisierungen und Perspektiven am Beispiel der Mathematischen Logik;
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation - Hrsg:
Havekost, H; Wätjen, H. A. - Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994;
1995, S. 48-67;
Lepsky, K.:
Automatische Indexierung zur Erschließung deutschsprachiger Dokumente;
Nachr. f. Dok.;
50 (1999) 6, S. 325-330;
Lienhart, R; Effelsberg, W.:
Automatic text segmentation and text recognition for video indexing;
Multimedia Systems;
8 (2000), S. 69-81;
Automatische Textsegmentierung und -erkennung zur Video-Indexierung;
Maas, H. D.:
Thesaurus als Wissensbasis für Begriffezerlegungen;
Proceedings, Dtsch. Dokumentag 1993, Jena, 28. bis 30. Sept. 1993;
S. 291-300;
Mai, J.-E.:
Deconstructing the indexing process;
Advances in librarianship;
23 (1999), S. 269-298;
Untersuchung des Indexierprozesses;
Mattingley-Scott, M.; Walter, C.:
Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten DE 198 42 320 A1;
16. 9. 1998;
IBM
McMurdo, G.:
How the Internet was indexect;
J. Informat. Sc.;
21 (1995) 6, S. 479-489;
Wie das Internet indexiert wurde;
Mulvany, N. C.:
Software rools for indexing: revisited;
Indexer;
21 (1999) 4, S. 160-163;
Software-Werkzeuge zum Indexieren: Wiederholung;
Nohr, H.:
Internationale Normenklassifikation (ICS);
Nach. f. Dok;
48 (1997) 2, S. 87-90;
Nohr, H.:
Inhaltsanalyse;
Nachr. f. Dok;
50 (1999) 2, S. 69-78;
Palos, S.:
Indexierung, Volltextrecherche und digitale Text Dossiers: Erschließungsmethoden der Pressedokumentation im Test;
Nachr. f. Dok;
50 (1999) 7, S. 413-419;
Park, Y. C.; Choi, K.-S.:
Automatic thesaurus construction using Bayesian networks;
Inf. Process. & Management,
32 (1996) 5, S. 543-553;
Petersohn, H.:
Ein Vorgehensmodell zur systematischen Auswahl von Klassifikationslösungen;
IM;
(1996) 3, S. 30-34;
Picot, N.:
RAMEAU: Sacherschließung in Frankreich und die Rolle der Kunstbibliotheken;
AKMB-news;
5 (1999) 2, S. 4-8;
Pietzsch, E.:
Internet-Objekte: Automatisierte Erschließung und inhaltsbezogene Recherche;
ABI Technik;
17 (1997) 1, S. 13-18;
Pollard, R.:
A hypertext-based thesaurus as a subject browsing aid for bibliographic databases;
Inf. Process. & Manag.;
29 (1993) 3, S. 345-357;
Ein hypertextbasierter Thesaurus als Browserhilfe für bibliographische Dateitanken;
Rada, R.; Wang W.; Birchal, A.:
Retrieval hierarchies in Hypertext
Inf. Process. & Manag.;
29 (1993) 3, S. 359-371;
Retrievalhierarchien in Hypertext;
Reisser, M.:
Die Darstellung begrifflicher Kontexte im Online-Retrieval;
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation; Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994 der Ges. für Klassifikation;
Oldenburg: BIS, 1995, S. 253-279;
Riplinger, Th.:
Syntaktische Indexierung durch Aspektkodierung: Zukunft der Eppelsheimer Methode;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen (Fortschritte i. d. Wiss.org.: 2);
Frankfurt/M.: Indeks Verl., 1992, S. 217-227;
Ruge, G.; Goeser, S.:
Information Retrieval ohne Linguistik?;
Nachr. f. Dok;
49 (1998) 6, S. 361-369;
Rusch-Feja, D.:
Ein "Clearinghouse"-Konzept für Fachinformationen aus dem Internet oder wie man aus dem Chaos sinnvolle Informationsvermittlung betreibt;
ABI-Technik;
16 (1996) 2, S. 143-156;
Rusch-Feja, D.:
Mehr Qualität im Internet: Entwicklung und Implementierung von Metadaten;
Proceedings, 19. Online-Tagung der DGD: Die Zukunft der Recherche; Rechte, Ressourcen und Referenzen;
Frankfurt am Main, 14. bis 16. Mai 1997;
1997, S. 113-130;
Salm, H.:
Datenbankanbindung über das Internet: Eine Projektlösung im Wandel der Zeit;
ABI-Technik;
17 (1997) 1, S. 51-54;
Sarre, F.; Güntzner, U.; Myka, A.; Jüttner, G.:
Maschinelles Lernen von Relationen für Thesauri und Hypertext;
Kognitive Ansätze zum Ordnen und Darstellen von Wissen: 2. Tagung ISKO Sektion . . ., 15.-18. Okt. 1991;
Frankfurt/M.: INDEKS, 1992. S. 265-276;
Schmitz-Esser, W.:
Thesaurus, frischer Anlauf: Lexikographisch, mehrsprachig, maschinengängig, universal, fr Informationslinguistik und Information Retrieval; Vorstellung eines im KTF erarbeiteten, neuen Thesauruskonzepts;
Proceedings, Dtsch. Dokumentartag 1993, Jena, 28. bis 30. Sept. 1993;
S. 261-274;
Schütze, H.; Pedersen, J. O.:
A cooccurrence-based thesaurus and two applications to information retrieval;
Inf. Process. & Manag.;
33 (1997) 3, S. 307-318;
Ein Ähnlichkeitsthesaurus und zwei Anwendungen im Information Retrieval;
Schwantner, M.:
AIR/PHYS - Automatische Indexierung in der Praxis;
Wissensbasierte Informationssysteme und Informationsmanagement, Proc, 2. Int. Symp. für Inf.-wiss. u. 17. Int. Koll. für Inf. und Dok;
Erfurt, 1991, S. 320-332;
Seelbach, H. E.:
Symbiose zwischen Thesaurus und Boolescher Algebra auf WWW-Browsern: Das Internet ernst nehmen;
ABI-Technik;
17 (1997), S. 330-336;
Skorsky, M.:
Graphische Darstellung eines Thesaurus;
Dt. Dokumentartag 1997, Univ. Regensburg, 24. bis 26. Sept 1997;
Frankfurt/M.: DGD, 1997, S. 119-125;
Stock, M.:
Standard-Thesaurus Wirtschaft: Ein neuer Standard der Wirtschaftsinformation?;
Password;
(1999) 1, S. 22-29;
Stock, W. G.:
Endnutzersystem für internationale Geschäftsinformationen;
Password;
(1998) 10, S. 22-28;
Stock, W. G.:
Natürlichsprachige Suche - more like this!;
Password;
(1998) 11, S. 21-28;
Stock, W. G.:
Intellektuelles Indexieren für Buchregister und Inhouse-Datenbanken: Robert Fugmann, Inhaltserschließung durch Indexieren: Prinzipien und Praxis;
Password;
(1999) 7/8, S. 26-27;
Tzeras, K; Reiss, P.:
Zur Beziehung zwischen Entwicklungsaufwand und Leistungsfähigkeit eines Wörterbuches für die automatische Indexierung;
Wissensbas. Inf.systeme u. Inf.management. Proc. 2. Int. Symp. f. Infwiss. (ISI 91);
Konstanz: Univ.verl., 1991, S. 167-181;
Viegener, J.; Maurer, A.:
Ein Ansatz zur Dynamisierung von Thesauri in Informationssystemen;
Nachr. f. Dok;
44 (1993) 5, S. 285-292;
Weigel, U.:
Konturen der digitalen Revolution im Informations- und Bibliothekswesen: ASIS-Konferenz 1996 in San Diego (USA);
ABI Technik;
16 (1996) 4, S. 393-396;
Weihs, E.:
Zur Klassifikation umweltbezogener Daten im Rahmen des Bayerischen Umweltinformationssystems an Hand eines objektorientierten Ansatzes;
Nachr. f. Dok;
47 (1996) 6, S. 361-367;
Willenborg, J.:
Hypermediabasierte Terminologie- und Wörterbuchpflege;
Dt. Dokumentartag 1992, Berlin, 22.-25. Sept. 1992;
S. 379-408;
Wright, J. C.:
How to index online;
Indexer;
20 (1997) 3, S. 115-120;
Wie kommt man zum Online-Index?;
Yoshida, S.:
Construction of library and information science thesaurus;
Int. Inf. Communicat. Educ.;
12 (1993) 2, S. 166-171;
Young, P. F.:
Vokabulare: Mehr Ansetzungslisten: vom Stichwort zum Begriff;
AKMB-news;
5 (1999) 2, S. 8-12;
Zerbst, H.-J.:
Zum Verhältnis von Basisklassifikation und RSWK am Beispiel des Bibliotheksverbundes Niedersachsen/­ Sachsenanhalt;
Aufbau und Erschließung begrifflicher Datenbanken: Beiträge zur bibliothekarischen Klassifikation; Eine Auswahl von Vorträgen der Jahrestagungen 1993 und 1994 der Ges. für Klassifikation;
Oldenburg: BIS, 1995, S. 163-173;
Zimmermann, H. H.:
Anmerkungen zur Neugestaltung der DIN 1463 (Thesauri);
Kognitive Ansätze zum Ordnen und Darstellen von Wissen: 2. Tagung ISKO Sektion . . ., 15.-18. Okt. 1991;
Frankfurt/M.: LNDEKS, 1992, S. 313-321;
Zimmermann, H. H.:
Aspektierung von Thesaurus-Relationen: Öffnung in universale Anwendbarkeit?;
Proceedings, Dtsch. Dokumentartag 1993, Jena, 28. bis 30. Sept. 1993;
S. 275-290.

Claims (7)

1. Verfahren zur automatischen syntaktischen Indexierung von Text-Dokumenten unter Verwendung eines elektronischen Index mit syntaktischer Verknüpfung, dadurch gekennzeichnet; daß eine allgemeine Aspekt- Klassifikation erstellt wird, Begriffe eines Index eines Textcorpus intellektuell mit den semantisch entsprechenden Notationen der Aspekt-Klassifikation zu einer syntaktischen Einheit verknüpft werden und so eine Konkordanzliste erzeugt wird. Diese Konkordanzliste kann nun zur automatischen syntaktischen Erschließung von Textcorpora mit gleichem Vokabular verwendet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Aspektnotation zusammen mit der Datensatzadresse in der Indexliste gespeichert wird.
3. Verfahren zur syntaktischen Recherche in Textcorpora, dadurch gekennzeichnet, daß die Suchen mit Aspektnotationen erfolgen.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Suchwort nach Ermittlung in der Konkordanzliste automatisch rechts-/links-trunkiert wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß so in der Indexliste gesucht wird.
6. Verfahren zur Umwandlung normaler Suchanfragen, dadurch gekennzeichnet, daß der Nutzer mit den gewohnten Retrievaltools anfragen kann und die Suchanfrage im Hintergrund entsprechend der syntaktischen Recherche umgewandelt wird gemäß Anspruch 4.
7. Verfahren zur Suchergebnisdarstellung, dadurch gekennzeichnet, daß die Titel der gefundenen Dokumente und die syntaktische Verknüpfung von Suchwort und Notation der Aspekt-Klassifikation angezeigt werden
DE10055682A 2000-11-03 2000-11-03 Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte Withdrawn DE10055682A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10055682A DE10055682A1 (de) 2000-11-03 2000-11-03 Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10055682A DE10055682A1 (de) 2000-11-03 2000-11-03 Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte

Publications (1)

Publication Number Publication Date
DE10055682A1 true DE10055682A1 (de) 2002-05-08

Family

ID=7662789

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10055682A Withdrawn DE10055682A1 (de) 2000-11-03 2000-11-03 Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte

Country Status (1)

Country Link
DE (1) DE10055682A1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10250990A1 (de) * 2002-10-28 2004-05-13 Intelligent Data Systems Gmbh Verfahren zur automatischen Klassifizierung von Umsatz-Datensätzen sowie eine Vorrichtung hierfür
EP2856416A4 (de) * 2012-05-29 2016-01-20 Truaxis Inc Anwendungsökosystem und authentifizierung
US10504126B2 (en) 2009-01-21 2019-12-10 Truaxis, Llc System and method of obtaining merchant sales information for marketing or sales teams
US10594870B2 (en) 2009-01-21 2020-03-17 Truaxis, Llc System and method for matching a savings opportunity using census data

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10250990A1 (de) * 2002-10-28 2004-05-13 Intelligent Data Systems Gmbh Verfahren zur automatischen Klassifizierung von Umsatz-Datensätzen sowie eine Vorrichtung hierfür
US10504126B2 (en) 2009-01-21 2019-12-10 Truaxis, Llc System and method of obtaining merchant sales information for marketing or sales teams
US10594870B2 (en) 2009-01-21 2020-03-17 Truaxis, Llc System and method for matching a savings opportunity using census data
EP2856416A4 (de) * 2012-05-29 2016-01-20 Truaxis Inc Anwendungsökosystem und authentifizierung

Similar Documents

Publication Publication Date Title
Ding et al. Bibliometric cartography of information retrieval research by using co-word analysis
Tseng Automatic thesaurus generation for Chinese documents
US8407165B2 (en) Method for parsing, searching and formatting of text input for visual mapping of knowledge information
Huettner et al. Fuzzy typing for document management
Hjørland Indexing: concepts and theory
CA2556023A1 (en) Intelligent search and retrieval system and method
Ahlgren et al. Bibliometric analysis of two subdomains in philosophy: Free will and sorites
DE10055682A1 (de) Verfahren zur automatischen syntaktischen inhaltlichen Erschließung elektronischer Texte
Peponakis et al. Expressiveness and machine processability of Knowledge Organization Systems (KOS): an analysis of concepts and relations
Eggi Afaan oromo text retrieval system
Smith The use of lexicons in information retrieval in legal databases
Zarrad et al. Toward a taxonomy of concepts using web documents structure
Jenkins et al. Adaptive automatic classification on the web
Lauw et al. TUBE (Text-cUBE) for discovering documentary evidence of associations among entities
Anstein Computational approaches to the comparison of regional variety corpora: prototyping a semi-automatic system for German
KHARLAMOV CHAPTER SEVEN TEXTANALYST TECHNOLOGY FOR AUTOMATIC SEMANTIC ANALYSIS OF TEXT ALEXANDER KHARLAMOV
Vasili et al. A Comparative Review of Text Mining & Related Technologies.
Yu et al. A hierarchical typology of scholarly information units: based on a deduction-verification study
Nowick et al. A model search engine based on cluster analysis of user search terms
Namly et al. Interoperable Arabic language resources building and exploitation in SAFAR platform
Kraft et al. Problems in modeling a weighted Boolean retrieval system
Li et al. Automatic construction of cross-lingual networks of concepts from the Hong Kong SAR Police Department
Hammo et al. ViStA: a visualization system for exploring Arabic text
Losee Is 1 noun worth 2 adjectives? Measuring relative feature utility
van der Pol Knowledge-based query formulation in information retrieval

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee