DE10112572A1 - Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element - Google Patents

Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element

Info

Publication number
DE10112572A1
DE10112572A1 DE10112572A DE10112572A DE10112572A1 DE 10112572 A1 DE10112572 A1 DE 10112572A1 DE 10112572 A DE10112572 A DE 10112572A DE 10112572 A DE10112572 A DE 10112572A DE 10112572 A1 DE10112572 A1 DE 10112572A1
Authority
DE
Germany
Prior art keywords
electronic
words
determined
thesaurus
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10112572A
Other languages
English (en)
Inventor
Michael Brown
Dieter Wissmann
Christiane Foertsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10112572A priority Critical patent/DE10112572A1/de
Publication of DE10112572A1 publication Critical patent/DE10112572A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt. Abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.

Description

Die Erfindung betrifft eine Anordnung sowie ein Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument.
Eine solche Anordnung und ein solches Verfahren sind aus [1] bekannt.
Insbesondere bei der Planung und Durchführung eines großen Industrieprojekts, beispielsweise bei der Entwicklung und dem Bau einer neuen großen Industrieanlage oder eines neuen Kraftwerks, beispielsweise eines Gas-Turbinen-Kraftwerks oder eines Kernkraftwerks, eines neuen Verkehrssystems oder ähnlichem sind eine große Anzahl von Informationen in mehreren technischen Dokumenten zu berücksichtigen.
Diese technischen Dokumente sind beispielsweise Lastenhefte, Pflichtenhefte, Produktbeschreibungen, Verträge, technische Normen, Schutzrechtsanmeldungen, Schutzrechte, rechtsverbindliche Angebote, Versuchsberichte, Verfahrensanweisungen, Protokolle, technische Prinzipbeschreibungen, etc.
Es existieren somit zum einen sehr viele dieser elektronisch erfassten und zu berücksichtigenden elektronischen Dokumente, zum anderen können einzelne elektronische Dokumente in ihrem Umfang sehr groß sein, beispielsweise eine Ausschreibung für ein Industrieprojekt oder ein Pflichtenheft. Die Menge dieser Dokumente ist insgesamt häufig zusätzlich in ihren Eigenschaften und Verwendungszwecken sehr heterogen.
Die elektronischen Dokumente sind ferner von einer Vielzahl unterschiedlicher Experten für unterschiedliche Spezialgebiete zu analysieren und zu erfassen.
Für die Experten besteht jedoch ein erhebliches Problem darin, eine spezifische gewünschte Information innerhalb der großen Anzahl technischer Dokumente zu finden.
Um dieses Problem zu mindern, ist es bekannt, die technischen Dokumente mittels eines Scanners elektronisch zu erfassen und mittels eines Zeichenerkennungs-Verfahrens (Optical Character Recognition, OCR) das elektronisch erfasste Dokument jeweils zu analysieren und den jeweiligen Inhalt des Dokuments, das heißt die einzelnen Zeichenketten, das heißt Wörter und numerischen Zeichenketten, innerhalb des Dokuments zu erkennen.
Ist die Information mittels eines OCR-Verfahrens umgesetzt und gespeichert, kann beispielsweise mittels bekannter rechnergestützter Suchverfahren gewünschte Information durch Eingabe von Suchbegriffen in den gespeicherten elektronischen Dokumenten ermittelt werden.
In diesem Zusammenhang ist es bekannt, im Rahmen eines Suchverfahrens einen sogenannten elektronischen Thesaurus, das heißt eine Sammlung von Begriffen aus einem vorgegebenen Begriffsbereich bzw. Themengebiet, das auch als Domäne bezeichnet wird, und von Beziehungen, die im Weiteren auch als Relationen bezeichnet werden, zwischen diesen Begriffen, zu verwenden.
Unter einem elektronischen Thesaurus ist im weiteren ein elektronisches strukturiertes Wörterbuch zu verstehen, bei dem einem Begriff jeweils Beziehungen zugeordnet sind, beispielsweise Synonym-Beziehungen, Akronym-Beziehungen, Oberbegriffs-Unterbegriffs-Beziehungen etc. Ein elektronischer Thesaurus kann somit beliebig relational oder auch hierarchisch strukturiert sein.
Ein Wort ist eine Zeichenkette aus alphanumerischen und numerischen Zeichen oder anderen beliebigen Sonderzeichen; ohne Semantik. Ein Begriff/Term dagegen entspricht einer Bedeutung.
Ein elektronischer Thesaurus kann somit beispielsweise bei der Suche von relevanten Textteilen in einem elektronischen Dokument eingesetzt werden, indem entweder dem Benutzer mögliche Suchbegriffe aus dem elektronischen Thesaurus angeboten werden, oder indem eine bereits von dem Benutzer vorgegebene Suchbegriffsmenge automatisch mit weiteren Verwandten, das heißt den jeweiligen Suchbegriffen aus der Suchbegriffsmenge ausreichend ähnlichen und erfolgversprechenden Suchbegriffen erweitert wird.
Für die Indizierung von elektronischen Dokumenten kann der elektronische Thesaurus Deskriptoren vorgeben oder vorschlagen.
Auch bei der Präsentation von elektronischen Dokumenten kann ein elektronischer Thesaurus eine bedeutende Rolle spielen, etwa wenn es darum geht, automatische Relationen (sogenannte Hyperlinks gemäß der Hypertext Markup Language, HTML) zwischen einzelnen Teilen eines elektronischen Dokuments oder zwischen einzelnen elektronischen Dokumenten zu erstellen. In diesem Zusammenhang könnte die Ähnlichkeit zweier Textstellen, das heißt Textbereichen, einzelner elektronischer Dokumente bezüglich der von dem elektronischen Thesaurus vorgegebenen Ähnlichkeitsgrad der Begriffe der einzelnen Textbereiche ermittelt werden.
Aus diesen Erläuterungen wird ersichtlich, dass einem elektronischen Thesaurus eine erhebliche Bedeutung im Rahmen der automatisierten Textverarbeitung zukommt.
Ein erheblicher Nachteil eines elektronischen Thesaurus ist jedoch bisher darin zu sehen, dass die Erstellung eines elektronischen Thesaurus durch einen oder mehrere Experten auf dem jeweiligen Gebiet, auf das sich der elektronische Thesaurus beziehen soll, äußerst zeitintensiv ist und deshalb eine projektspezifische Erstellung eines elektronischen Thesaurus üblicherweise nicht erfolgen kann.
Ferner ist ein solcher elektronischer Thesaurus üblicherweise sprachenabhängig und domänenabhängig und muss für jede Sprache und für jedes Themengebiet erneut üblicherweise manuell erstellt werden.
Bei dem aus [1] bekannten Verfahren zum Erstellen eines statistischen elektronischen Thesaurus aus einer Menge elektronischer Dokumente und dessen Nutzung für die Erweiterung einer Suchanfrage bei der automatischen Textsuche in der Menge der elektronischen Dokumente wird der erzeugte statistische elektronische Thesaurus als eine Menge von Sätzen gebildet, wobei jeder Satz eine Menge von Termen enthält, die gemeinsam in einem Textabschnitt auftreten. Diese Menge von Termen wird in eine vorgegebene Zahl, gemäß [1] fünf Termengruppen, aufgeteilt, wobei eine erste Termengruppe "1" die wichtigsten Terme für den Textabschnitt aufweist und eine fünfte Termengruppe "5" die unwichtigsten, aber immer noch für die Textsuche relevanten Terme.
Der erzeugte elektronische Thesaurus ist eng an einzelne elektronische Dokumente geknüpft. Zwei Begriffe stehen implizit dann gemäß [1] zueinander in Relation, wenn sie zu derselben Termgruppe eines elektronischen Dokuments zugeordnet sind. Es gibt gemäß [1] keine explizite Relation zwischen zwei Begriffen. Insbesondere gibt es keine Aussagen über die Verwandtschaft von Termen über Grenzen zweier elektronischer Dokumente hinweg, somit auch keine Aussage über die Verwandtschaft, das heißt Ähnlichkeit von Termen innerhalb aller betrachteten Dokumente der Menge elektronischer Dokumente.
Dies wäre aber erforderlich, um die Ähnlichkeit von Termen im gesamten Projektkontext zu erkennen und somit auf einfache Weise auf neue, zum Projekt ergänzend erweiterte elektronische Dokumente, beispielsweise Erfahrungsberichte, anzuwenden.
Bei der Erzeugung des elektronischen Thesaurus wird ein einzelnes elektronisches Dokument als eine Einheit betrachtet.
Für sehr große elektronische Dokumente, wie sie in großen technischen Projekten anfallen, ist dies jedoch sehr problematisch, da diese elektronischen Dokumente sich mit sehr unterschiedlichen Aspekten eines Projekts beschäftigen und somit nur sehr schwer zu entscheiden ist, welche die wichtigen und welche die unwichtigen Terme des elektronischen Dokuments sind.
Das aus [1] bekannte Verfahren eignet sich deshalb eher für Texte aus kleineren elektronischen Dokumenten, die jeweils nur wenige Themen, am besten nur eines, fokussieren.
Ferner ist es aus [2] bekannt, einander ähnliche Wörter zu einer Wortgruppe mit mindestens jeweils einem Repräsentanten zu gruppieren unter Verwendung morphologischer Verfahren.
Bei dem aus [2] bekannten Verfahren werden Wortpaare ermittelt, die mit erhöhter Wahrscheinlichkeit nacheinander im Text in einem elektronischen Dokument vorkommen. Die Menge der zu untersuchenden Wörter muss jedoch vorgegeben sein; das Verfahren gemäß [2] findet also nicht selbständig Wortkandidaten für einen elektronischen Thesaurus.
Aus diesem Grund ist das Verfahren aus [2] nicht mehr sprachenunabhängig. Sogenannte Trigger-Relationen zwischen häufig auftretenden Wörtern werden bevorzugt vor Relationen zwischen weniger häufig auftretenden Wörtern aufgenommen. Dies ist zwar unkritisch, solange eine sinnvolle Wortmenge vorgegeben ist. Ist dies jedoch nicht der Fall, das heißt ist keine sinnvolle Wortmenge vorgegeben, werden gemäß dem aus [2] bekannten Verfahren Relationen zwischen zwei häufig auftretenden, aber wenig Informationsgehalt aufweisenden Wörtern, wie beispielsweise den Begriffen "in" oder "den" oder "dem", ermittelt werden.
Das aus [2] bekannte Verfahren basiert somit auf der Bestimmung relevanter Wörter für einen elektronischen Thesaurus aus einem elektronischen Dokument auf der Grundlage lediglich der Auftrittshäufigkeit der Wörter in dem elektronischen Dokument.
Dieses Verfahren hat somit insbesondere den Nachteil, dass auch Füllwörter wie beispielsweise "ein" als elektronischer Thesaurusbegriff ausgewählt werden.
Um diese Wörter wieder aus dem elektronischen Thesaurus zu entfernen, müssen sie mit einer Stoppwortliste, also einer Liste irrelevanter Wörter, abgeglichen. Diese Stoppwortliste muss in der Regel manuell erstellt werden. Das Erstellen ist somit zeitaufwendig und komplex und ferner fehlerbehaftet. Weiterhin ist diese Vorgehensweise sehr unflexibel und sprachenabhängig.
Weiterhin ist es aus [3] bekannt, im Rahmen der Segmentierung eines oder mehrerer elektronischer Dokumente in einzelne Themenkomplexe Wörtern aus dem elektronischen Dokument sogenannte Burstiness-Werte zuzuordnen, wobei in einem Burstiness-Wert sowohl die Auftrittshäufigkeit des Wortes in dem elektronischen Dokument als auch die Ungleichmäßigkeit seiner Verteilung, das heißt der Auftrittsverteilung innerhalb des elektronischen Dokuments berücksichtigt wird.
Der Erfindung liegt das Problem zugrunde, eine Anordnung sowie ein Verfahren zum automatisierten Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument anzugeben, wobei die Ermittlung des elektronischen Thesaurus sprachenunabhängig erfolgen kann.
Das Problem wird durch die Anordnung und das Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, das Computerlesbare Speichermedium und das Computerprogramm-Element mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
Eine Anordnung zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument weist einen Prozessor auf, der derart eingerichtet ist, dass die im Weiteren beschriebenen Verfahrensschritten durchführbar sind.
Ferner kann ein Speicher vorgesehen sein, in dem die für das Verfahren erforderlichen Daten gespeichert werden.
Die Anordnung kann sowohl ein einzelner üblicher Computer oder auch eine verteilte Rechneranordnung sein, bei der die einzelnen Rechner mittels eines Rechnernetzes miteinander gekoppelt sind und die einzelnen Verfahrensschritte auf unterschiedlichen Rechnern durchgeführt werden können.
Für mindestens einen Teil der Wörter in dem elektronischen Dokument wird jeweils ein Burstiness-Wert ermittelt. Der Burstiness-Wert ist abhängig von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Auftrittsverteilung, das heißt der örtlichen Verteilung der Wörter innerhalb des elektronischen Dokuments, das heißt der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt. Abhängig von den jeweiligen Burstiness- Werten, die den Wörtern zugeordnet sind, wird der elektronische Thesaurus ermittelt.
Bei einem Verfahren zum rechnergestützten Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument wird für zumindest einen Teil der Wörter des elektronischen Dokuments jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokuments und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt. Abhängig von den ermittelten Burstiness- Werten, die den Wörtern zugeordnet sind, wird der elektronische Thesaurus ermittelt.
Durch die Berücksichtigung der Burstiness-Werte bei der Ermittlung des elektronischen Thesaurus wird ein flexibles, schnelles und einfaches und somit kostengünstiges Vorgehen zur Ermittlung eines elektronischen Thesaurus angegeben.
Der elektronische Thesaurus kann erfindungsgemäß sprachenunabhängig ermittelt werden. Der elektronische Thesaurus wird vollautomatisiert ermittelt.
Weiterhin ist ein Computerlesbares Speichermedium vorgesehen, in dem ein Computerprogramm zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, die oben beschriebenen Verfahrensschritte aufweist.
Ein Computerprogramm-Element zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument weist bei dessen Ausführung durch einen Prozessor die oben beschriebenen Verfahrensschritte auf.
Die Erfindung kann sowohl in Software, das heißt mittels eines Computerprogramms, als auch zum Teil oder vollständig mittels einer elektronischen speziellen Schaltung, das heißt in Hardware, implementiert werden.
Anschaulich kann die Erfindung darin gesehen werden, dass nicht mehr lediglich die Häufigkeitsinformation, das heißt die Auftrittshäufigkeit eines jeweiligen Wortes in einem elektronischen Dokument zur Erstellung eines elektronischen Thesaurus berücksichtigt wird, sondern nunmehr die Burstiness, das heißt die Auftrittshäufigkeit des jeweiligen Wortes und die Verteilung der jeweiligen Wörter innerhalb des elektronischen Dokuments.
Durch die Berücksichtigung der Burstiness als Kriterium für die Aufnahme eines Wortes in den zu bildenden elektronischen Thesaurus wird automatisiert gewährleistet, dass Wörter, insbesondere Füllwörter wie beispielsweise "ein", "der" etc., nicht in den elektronischen Thesaurus aufgenommen werden, da diese eine geringe Burstiness aufweisen, weshalb erfindungsgemäß auf eine zusätzlich, üblicherweise manuell erstellte Stoppwortliste verzichtet werden kann.
Das Auffinden der Thesauruswörter ist sprachenunabhängig und hängt nicht von der Qualität einer Stoppwortliste ab.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die im Weiteren beschriebenen Ausgestaltungen gelten sowohl für die Anordnung als auch für das Verfahren, das Computerlesbare Speichermedium und das Computerprogramm- Element.
Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen, dass für jedes Wort in dem elektronischen Dokument jeweils ein Burstiness-Wert ermittelt wird.
Einander gemäß einem vorgegebenen Ähnlichkeitskriterium einander ausreichend ähnliche Wörter können zu einer Wortgruppe gemeinsam gruppiert werden, denen gemeinsam jeweils ein Wortgruppen-Burstiness-Wert zugeordnet wird.
Abhängig von den Burstiness-Werten und/oder den Wortgruppen- Burstiness-Werten kann zwischen einzelnen berücksichtigten Wörtern oder Wortgruppen, insbesondere für den Fall, dass einzelnen Wortgruppen jeweils ein Repräsentant zugeordnet wird, den Repräsentanten der Wortgruppen, Relationen zwischen den einzelnen Wörtern oder Repräsentanten ermittelt werden und den entsprechenden Wörtern zugeordnet werden. In diesem Fall erfolgt die Ermittlung des elektronischen Thesaurus unter Berücksichtigung der bestimmten Relationen.
Werden die Wörter in Wortgruppen gruppiert und jeder Wortgruppe jeweils ein Repräsentant zugeordnet, so wird gemäß dieser Ausgestaltung der Rechenzeitbedarf zur Durchführung des Verfahrens erheblich verringert.
Die Relationen können auf folgende Weise ermittelt werden. Es werden diejenigen Wörter ermittelt, deren Auftrittshäufigkeit größer ist als ein vorgegebener Häufigkeits-Schwellenwert. Zwischen den ermittelten Wörtern wird eine Relation erzeugt.
Durch diese Ausgestaltung der Erfindung wird aufgrund der Berücksichtigung der einzelnen Relationen zwischen den Wörtern die Verlässlichkeit und damit die Qualität des elektronischen Thesaurus weiter verbessert.
Gemäß einer weiteren Ausgestaltung der Erfindung ist es vorgesehen, dass das elektronische Dokument abhängig von den Burstiness-Werten, die den einzelnen Wörtern zugeordnet sind, in mehrere Dokumentensegmente segmentiert werden. Abhängig von den Burstiness-Werten werden jeweils innerhalb eines Dokumentensegments zwischen einzelnen berücksichtigten Wörtern für das Dokumentensegment Relationen ermittelt und der elektronische Thesaurus wird unter Berücksichtigung der ermittelten Relationen aus den einzelnen Dokumentensegmenten bestimmt.
Durch diese Ausgestaltung der Erfindung wird die Qualität und Verlässlichkeit des ermittelten elektronischen Thesaurus weiter erhöht.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Weiteren näher erläutert.
Es zeigen
Fig. 1 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 2 ein Ablaufdiagramm, in dem die einzelnen Schritte zum Ermitteln der für den elektronischen Thesaurus verwendeten Wörter im Rahmen des Verfahrens gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 3 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte zum Ermitteln der Relationen zwischen den Wörtern des elektronischen Thesaurus im Rahmen des Verfahrens gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 4 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte zum Ermitteln von Relationen zwischen Repräsentanten von Wortgruppen im Rahmen des Verfahrens gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist;
Fig. 5 eine Skizze, in der die Struktur eines elektronischen Thesaurus gemäß einem Ausführungsbeispiel der Erfindung vereinfacht dargestellt ist;
Fig. 6 ein Blockdiagramm, in dem ein Scanner und ein Computer zum Erfassen und Speichern elektronischer Dokumente gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 7 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte des Verfahrens zum Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette (einem ersten Wort) mit einer elektronischen zweiten Zeichenkette (einem zweiten Wort) dargestellt sind;
Fig. 8a und 8b zwei Beispiele der Initialisierung eines Buchstabenregisters und eines Umsetzungskostenregisters anhand zweier unterschiedlicher Zeichenketten;
Fig. 9a und 9b zwei Beispiele des Inhalts des Buchstabenregisters und des Umsetzungskostenregisters für zwei unterschiedliche Vergleiche zweier Zeichenketten gemäß einem Ausführungsbeispiel der Erfindung;
Fig. 10 eine Skizze einer Konvertierungsfunktion, mit der ein Ähnlichkeitswert auf einen Wahrscheinlichkeitswert abgebildet wird;
Fig. 11 ein Blockdiagramm, in dem die Erweiterung von Suchbegriffen unter Verwendung des Verfahrens gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist.
Fig. 6 zeigt ein elektronisches Dokumentationssystem 600, mittels dem eine Vielzahl technischer Dokumente 601, beispielsweise Lastenhefte, Pflichtenhefte, Produktbeschreibungen, Projektverträge etc. erfasst, verarbeitet und gespeichert werden.
Die technischen Dokumente 601 werden mittels eines Scanners 602 erfasst, digitalisiert und als digitalisierte Dokumente 604 einem Computer 609, der mit dem Scanner 602 über eine Leitung 603 oder einer Funkverbindung oder einer Infrarotverbindung verbunden ist, zugeführt.
Der Computer 609 weist eine Eingangs-/Ausgangs-Schnittstelle 605 auf, die über einen Computerbus 608 mit einem Prozessor 607 und einem Speicher 606 des Computers 609 gekoppelt ist.
Ferner ist der Computer 609 über die Eingangs-/Ausgangs- Schnittstelle 605 über eine zweite Leitung 610 mit einem Bildschirm 611 zur Darstellung von ermittelter Ergebnisinformation verbunden.
Weiterhin ist der Computer 609 über die Eingangs-/Ausgangs- Schnittstelle 605 über eine dritte Leitung 612 mit einer Computermaus 613 und über eine vierte Leitung 614 mit einer Tastatur 615 verbunden.
Die digitalisierten technischen elektronischen Dokumente 604 werden in dem Speicher 606 des Computers 609 gespeichert und es wird ein Zeichenerkennungsverfahren (OCR-Verfahren) auf die technischen digitalisierten Dokumente 604 durchgeführt mittels des Prozessors 607, wodurch OCR-bearbeitete technische elektronische Dokumente erzeugt werden, die wiederum in dem Speicher 606 des Computers 609 gespeichert werden.
Die technischen elektronischen Dokumente 604 liegen nach der OCR-Bearbeitung als elektronische Zeichenketten vor, die beispielsweise gemäß dem ASCII-Standard codiert sind.
Wie in dem Ablaufdiagramm 100 in Fig. 1 dargestellt ist, weist das von dem Computer 609 durchgeführte Verfahren zum Ermitteln eines elektronischen Thesaurus folgende Verfahrensschritte auf.
Für alle elektronischen Dokumente (Block 101) werden die in einem elektronischen Thesaurus berücksichtigten Wörter aus dem jeweils in der Iterationsschleife betrachteten elektronischen Dokument ermittelt (Block 102).
In einem weiteren Schritt (Schritt 103) werden für die ermittelten Wörter, die in dem elektronischen Thesaurus berücksichtigt werden, für das jeweils betrachtete elektronische Dokument die jeweiligen Relationen zwischen den Wörtern ermittelt.
In einem weiteren Schritt (Schritt 104) wird überprüft, ob alle zu berücksichtigenden elektronischen Dokumente tatsächlich schon bearbeitet wurden, das heißt, ob in allen elektronischen Dokumenten schon Wörter für den elektronischen Thesaurus ermittelt worden sind.
Ist dies nicht der Fall, so wird ein weiteres, noch nicht bearbeitetes elektronisches Dokument ausgewählt und die Iterationsschleife der Verfahrensschritte 101, 102, 103, 104 wird erneut für das nunmehr ausgewählte elektronische Dokument durchlaufen.
Sind alle elektronischen Dokumente jedoch bearbeitet worden, so werden aus den einzelnen elektronischen Dokumenten die ausgewählten, das heißt ermittelten Wörter für den elektronischen Thesaurus zusammengeführt (Schritt 105).
In einem weiteren Schritt (Schritt 106) werden für die jeweiligen Wörter des elektronischen Thesaurus die jeweiligen ermittelten Relationen zwischen den Wörtern aus den einzelnen elektronischen Dokumenten für den elektronischen Thesaurus über alle elektronischen Dokumente hinweg zusammengeführt.
Nachdem dies erfolgt ist, wird das Verfahren beendet (Schritt 107).
Fig. 5 zeigt zum einfacheren Verständnis ein Beispiel eines elektronischen Thesaurus 500, der eine Vielzahl, grundsätzlich eine beliebige Anzahl von Wörtern 501 aufweist, die gemäß diesem Ausführungsbeispiel, allgemein jedoch nicht zwingend, gemäß dem im Weiteren noch detailliert erläuterten Verfahren zu einzelnen Wortgruppen 502, 503, 504 je nach der entsprechenden Ähnlichkeit der Wörter innerhalb einer Wortgruppe 502, 503, 504 miteinander gruppiert werden.
Jeder Wortgruppe 502, 503, 504 wird ein Repräsentant 505, 506, 507 der jeweiligen Wortgruppe 502, 503, 504 zugeordnet.
Die entsprechenden, dem Repräsentant 505, 506, 507 der jeweiligen Wortgruppe 502, 503, 504 jeweils zugeordneten Wörter 501 weisen jeweils eine, in Fig. 5 mittels eines Pfeils 508 symbolisierten Ähnlichkeitsgrad miteinander sowie mit dem jeweiligen Repräsentanten 505, 507, 507 auf.
Wie im Weiteren noch detailliert erläutert wird, wird gemäß dem im Weiteren beschriebenen Verfahren zwischen den einzelnen Repräsentanten 505, 506, 507 jeweils eine Relation 509, 510, 511 erzeugt, wenn diese ausreichend miteinander semantisch verknüpft sind.
Anschaulich beschreiben die Relationen eine gewisse Proximität, was in diesem Zusammenhang bedeutet, dass zwei Repräsentanten, allgemein zwei Wörter oder ihre Varianten gemeinsam in den jeweiligen Dokumenten auftreten, ohne dass dieses gemeinsame Auftreten zufällig ist.
In dem Ablaufdiagramm 200 aus Fig. 2 ist die Vorgehensweise zum Ermitteln der in dem elektronischen Thesaurus 500 berücksichtigten Wörter für das jeweils betrachtete elektronische Dokument beschrieben (Block 102).
In diesem Zusammenhang ist anzumerken, dass die Erfindung nicht auf eine Vielzahl von elektronischer Dokumente beschränkt ist, sondern sie kann ebenso lediglich auf ein elektronisches Dokument beliebiger Größe angewendet werden, in welchem Fall lediglich eine Iteration des in Fig. 1 dargestellten Ablaufdiagramms 100 durchgeführt wird.
Für alle voneinander unterschiedlichen Wörter, die in dem elektronischen Dokument enthalten sind (Block 201) wird die Burstiness, das heißt ein Burstiness-Wert, berechnet (Schritt 202) gemäß der in [3] beschriebenen Vorgehensweise.
Ist der jeweilige Burstiness-Wert größer als ein vorgegebener Schwellenwert, was in einem Prüfschritt (Schritt 203) überprüft wird, so werden für das jeweils berücksichtigte Wort für gemäß dem im Weiteren beschriebenen Verfahren zu dem jeweiligen Wort ausreichend ähnliche Wörter ermittelt, um in diesem Fall, wenn ausreichend ähnliche Wörter existieren, diese gemeinsam zu einer Wortgruppe zu gruppieren (Schritt 204).
Auf jeden Fall wird das ermittelte Wort für den Fall, dass der Burstiness-Wert des entsprechenden Wortes größer ist als der Schwellenwert, in dem elektronischen Thesaurus 500 berücksichtigt, das heißt in die Thesaurusstruktur auf genommen.
Ist der Burstiness-Wert des entsprechenden untersuchten Wortes nicht größer als der vorgegebene Schwellenwert, so wird das entsprechende Wort nicht in den elektronischen Thesaurus aufgenommen.
In einem weiteren Schritt (Schritt 205) wird überprüft, ob alle Wörter in dem elektronischen Dokument schon berücksichtigt worden sind, das heißt ob für jedes Wort in dem elektronischen Dokument schon ein Burstiness-Wert ermittelt worden ist.
Ist dies nicht der Fall, so wird die Iteration der Verfahrensschritte 201, 202, 203, optional Schritt 204, erneut für das weitere Wort in dem elektronischen Dokument durchgeführt.
Sind alle Wörter berücksichtigt, das heißt wurden für jedes Wort in dem elektronischen Dokument ein Burstiness-Wert ermittelt, so ist der Verfahrensschritt zum Ermitteln der Wörter für den elektronischen Thesaurus 500 in dem jeweils betrachteten elektronischen Dokument (Block 102) beendet (Block 206).
Im Weiteren wird anhand der Fig. 7 bis Fig. 11 die Vorgehensweise zum Ermitteln der Ähnlichkeit zweier Wörter, allgemein zweier Zeichenketten gemäß diesem Ausführungsbeispiel ermittelt.
Ist die Ähnlichkeit zweier elektronischer Zeichenketten, das heißt zweier Wörter, ausreichend groß, so werden diese Wörter zu einer Wortgruppe gruppiert.
Ist dies nicht der Fall, so werden die jeweils überprüften Wörter nicht einer gemeinsamen Wortgruppe zugeordnet.
Wie in Fig. 7 gezeigt ist, ist für jedes Zeichen einer ersten Zeichenkette 701 ein Zeichenregister 702 vorgesehen, welchem Zeichenregister 702 jeweils ein Umsetzungskostenregister 703 zugeordnet ist.
In den Zeichenregister 702 wird, wie im Weiteren näher erläutert wird, die Zuordnung zwischen je zwei Zeichen der ersten Zeichenkette 701 und einer jeweils berücksichtigten zweiten Zeichenkette 704 gespeichert.
In einem Umsetzungskostenregister 703 wird, wie im Weiteren ebenfalls näher erläutert wird, jeweils der Unterschied zwischen zwei einander zugeordneten Zeichen der ersten Zeichenkette 701 und der zweiten Zeichenkette 704 gespeichert.
Gemäß diesem Ausführungsbeispiel wird jedes Zeichenregister 702 mit einem ersten Wert (gemäß diesem Ausführungsbeispiel dem Wert "-1") initialisiert.
Ferner wird jedes Umsetzungskostenregister 703 mit einem zweiten Wert (gemäß diesem Ausführungsbeispiel mit dem Wert "1") initialisiert.
Fig. 3a zeigt die Initialisierung der Buchstabenregister 702 sowie der Umsetzungskostenregister 703 für das Wort "Sitzplatz" als erste Zeichenkette 701.
Wie Fig. 3a zu entnehmen ist, sind für das Wort "Sitzplatz" neun Buchstabenregister 702 und neun Umsetzungskostenregister 703 vorgesehen, was der Länge des Wortes, das heißt der Anzahl der Buchstaben, allgemein der Zeichen, in der ersten Zeichenkette 701 entspricht.
Gemäß dem in Fig. 3a dargestellten Ausführungsbeispiel ist die Zeichenfolge "Plätze(sitze)" als zweite Zeichenkette 704 gewählt.
Gemäß Fig. 3b ist die Initialisierung für ein Beispiel dargestellt, bei dem der Ausdruck "Plätze(sitze)" als erste Zeichenkette 704 gewählt wurde und der Ausdruck "Sitzplatz" als zweite Zeichenkette 704.
Wie Fig. 3b zu entnehmen ist, sind für diesen Fall dreizehn Zeichenregister 702 und Umsetzungskostenregister 703 vorgesehen, die mit dem entsprechenden Wert "-1" (Zeichenregister 702) bzw. "1" (Umsetzungskostenregister 703) initialisiert werden, entsprechend der Anzahl der Zeichen in dem Ausdruck "Plätze(sitze)".
In einem weiteren Schritt wird die Position eines Zeichens der zweiten Zeichenkette 704 für ein Zeichen der ersten Zeichenkette 701 ermittelt und in das dem jeweiligen Zeichen der ersten Zeichenkette 701 zugeordnete Buchstabenregister eingetragen, das heißt gespeichert, wobei die Position desjenigen Zeichens der zweiten Zeichenkette 704 gespeichert wird, die gemäß einem vorgegebenen Kriterium zu dem entsprechenden Zeichen der ersten Zeichenkette, das gerade betrachtet wird, passt.
Anschaulich bedeutet dies beispielsweise, dass für jedes Zeichen der ersten Zeichenkette 701 ein Zeichen innerhalb der zweiten Zeichenkette 704 gesucht wird, welches mit dem Zeichen der ersten Zeichenkette übereinstimmt oder diesem zumindest gemäß einer vorgegebenen Ähnlichkeitsliste ausreichend ähnlich ist.
So kann beispielsweise in einer Ähnlichkeitsliste vorgesehen sein, dass ein Buchstabe zwar gleich ist, dieser jedoch einmal klein und einmal groß geschrieben sein kann.
Weiterhin kann ein Zeichen der ersten Zeichenkette 701 als einem Zeichen der zweiten Zeichenkette 704 gemäß dem vorgegebenen Kriterium ausreichend ähnlich angesehen werden, wenn eines der Zeichen der Umlaut des jeweiligen anderen Zeichens ist, das heißt das Zeichen der ersten Zeichenkette 701 und das Zeichen der zweiten Zeichenkette 704, welches dem Kriterium genügt, bilden ein "Umlautpaar" gemäß der deutschen Sprache, beispielsweise "a-ä", "o-ö", "u-ü".
Weiterhin kann vorgesehen sein, dass zwei Zeichen dem Kriterium genügen, wenn beide Zeichen Ziffern sind, der Wert der Ziffer jedoch unterschiedlich ist.
Weiterhin können auch unterschiedliche Satzzeichen, beispielsweise einmal ein Fragezeichen und ein Zeichen der anderen Zeichenkette ein Ausrufezeichen oder auch ein Punkt und ein Komma bzw. ein Komma und ein Strichpunkt, usw. als Zeichen der beiden Zeichenketten 701, 704 dem Kriterium genügen.
Weiterhin können auch unterschiedliche Klammerformen als einander ausreichend ähnlich angesehen werden und damit dem Kriterium genügen, beispielsweise jeweils eine runde Klammer und eine geschweifte Klammer und/oder eine eckige Klammer.
In der Ähnlichkeitsliste ist für jedes gebildete Zeichenpaar, welches überhaupt zulässig ist, ein Umsetzungskostenwert gespeichert, mit dem angegeben wird, wie stark sich die beiden Zeichen des jeweiligen Zeichenpaars voneinander unterscheiden.
Sind die zwei ermittelten Zeichen der ersten Zeichenkette 701 bzw. der zweiten Zeichenkette 704 exakt gleich, so wird dem entsprechenden Umsetzungskostenregister 703 der Umsetzungskostenwert mit dem Wert "0" zugeordnet.
Die Umsetzungskosten für zwei einander zugeordnete Zeichen können jedoch bei unterschiedlichen Buchstaben entsprechend der gewählten Unähnlichkeit, wie er beispielsweise durch einen Benutzer vorgegeben wird und in der Ähnlichkeitsliste gespeichert wird, gewählt werden.
Wenn mehrere Zeichen der zweiten Zeichenkette 704 zu einem Zeichen der ersten Zeichenkette 701 passen würden, wird die Position der zweiten Zeichenkette 704 in das entsprechende Zeichenregister 702 eingetragen, die zu der größten Überlappung zweier Zeichenketten gehört, wie sie im Weiteren noch näher erläutert wird.
Wenn die einander zugeordneten Zeichen der zwei Zeichenketten 701, 704 nicht gleich sind, werden die entsprechenden Umsetzungskostenwerte in das Umsetzungskostenregister 703 gespeichert.
Wenn kein Zeichen der zweiten Zeichenkette zu einem Zeichen der ersten Zeichenkette 701 gemäß dem vorgegebenen Kriterium passt, bleiben die Werte aus der Initialisierungsphase, das heißt der gemäß dem Ausführungsbeispiel der Wert "-1", in dem Zeichenregister 702 bzw. der Werte "1" für das Umsetzungskostenregister 703 gespeichert.
Fig. 4a zeigt das Buchstabenregister 702 und das Umsetzungskostenregister 703 für den Ausdruck "Sitzplatz" als erste Zeichenkette 704 und den Ausdruck "Plätze(sitze)" nach erfolgter Zuordnung der Zeichen der beiden Zeichenketten 701, 704 zueinander.
Wie Fig. 4a zu entnehmen ist, ist in einem ersten Buchstabenregister 901, welches dem Zeichen "S" des Wortes "Sitzplatz" zugeordnet ist, der Wert "7" gespeichert, welcher der Position des Buchstabens "s" innerhalb des Wortes "Plätze(sitze)" als zweite Zeichenkette 704 entspricht, wie dies in Fig. 4a mit der Abbildungslinie 902 dargestellt ist.
Da der Buchstabe "S" in dem Wort Sitzplatz groß geschrieben ist und in dem Wort "Plätze(sitze)" klein geschrieben ist, ist in dem ersten Zeichenregister 901 zugeordneten ersten Umsetzungskostenregister 903 der Umsetzungskostenwert "0,5" gespeichert.
In einem zweiten Zeichenregister 904, welches dem Buchstaben "i" der ersten Zeichenkette 701 zugeordnet ist, ist der Wert "8" gespeichert, da in der zweiten Zeichenkette 704 der Buchstabe "i" an neunter Position steht.
In diesem Zusammenhang ist anzumerken, dass gemäß dem Ausführungsbeispiel die erste Position als Position "0" bezeichnet wird.
Da die beiden Buchstaben "i" exakt miteinander übereinstimmen, ist in dem dem zweiten Zeichenregister 904 zugeordneten zweiten Umsetzungskostenregister 905 der Wert "0" gespeichert.
Entsprechend sind die weiteren Zeichenregister 702 und die weiteren Umsetzungskostenregister 703 mit den entsprechend gemäß den durch die Abbildungslinien 902 in Fig. 4a dargestellten Zuordnungen gespeichert.
Fig. 4b zeigt die entsprechende Vorgehensweise und den entsprechenden gespeicherten Wert in den Zeichenregistern 702 und den Umsetzungskostenregistern 703 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette 701 und den Ausdruck "Sitzplatz" als zweite Zeichenkette 704.
Wie Fig. 4b zu entnehmen ist, kann für den Buchstaben "e" sowie für die Klammern in der ersten Zeichenkette 701 kein entsprechendes Zeichen in der zweiten Zeichenkette 704 ermittelt werden, weshalb in den entsprechenden weiteren Zeichenregistern 906 weiterhin der Initialisierungswert "-1" gespeichert ist.
In den weiteren Zeichenregistern 906 zugeordneten weiteren Umsetzungskostenregistern 907 bleibt weiterhin der Initialisierungswert "1" gespeichert.
In einem weiteren Schritt werden ausgehend von den Positionswerten, die in den Zeichenregistern 702 gespeichert sind und den den Positionswerten zugeordneten Umsetzungskostenwerten, die in den Umsetzungskostenregistern 703 gespeichert sind, Ähnlichkeitsfaktoren 707 ermittelt, unter deren Verwendung ein Ähnlichkeitswert zur Beschreibung der Ähnlichkeit der ersten Zeichenkette 701 mit der zweiten Zeichenkette 704 beschrieben wird, wie im Weiteren näher erläutert wird.
Gemäß diesem Ausführungsbeispiel beschreibt jeder Faktor 707 anschaulich einen semantischen Aspekt, weshalb aus semantischen Gründen jeweils zwei miteinander zu vergleichende Zeichenketten einander ähnlich sein können.
Jeder Faktor 707 kann einen positiven und/oder einen negativen Einfluss auf die gesamte Ähnlichkeit aufweisen.
Es ist in diesem Zusammenhang darauf hinzuweisen, dass grundsätzlich jeder Faktor 707, der einen Einfluss auf die Ähnlichkeit zweier miteinander zu vergleichender Zeichenketten haben kann, gemäß der Erfindung verwendet werden kann.
Gemäß diesem Ausführungsbeispiel werden folgende Faktoren 707 gebildet und berücksichtigt:
  • - Erster Faktor (F1): relative Größe der zwei Zeichenketten:
    Zum Beispiel (Fig. 8a)
    F1 = Min(Len(Wort1), Len(Wort2))/ Max(Len(Wort1), Len(Wort2)) = 9/13 = 0,69
    Je größer der "relative Unterschied", das heißt auf die Länge der ersten Zeichenkette bzw. der zweiten Zeichenkette bezogene Unterschied der Länge der zwei Zeichenketten ist, um so geringer ist die gesamte Ähnlichkeit der zwei Zeichenketten.
    Gemäß dem Ausführungsbeispiel ist die Differenz der Anzahl von Zeichen, die in den Zeichenketten 701, 704 enthalten sind, 4 (13 - 9 = 4).
    Somit ergibt sich ein relativer Unterschied als erster Faktor als 4/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette oder 4/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette;
  • - Zweiter Faktor (F2): die relative Länge der größten Überlappung der zwei Zeichenketten:
    Zum Beispiel (Figur Ba)
    F2 = LongestSubsequence(Wort1, Wort2)/Min(Len(Wort1), Len(Wort2)) = 6/9 = 0,66
    Eine Überlappung wird gemäß diesem Ausführungsbeispiel als fortlaufende Sequenz von positiven Nummern, das heißt positiven Positionswerten in den Zeichenregistern 702 identifiziert, da ja für den Fall, dass kein entsprechendes Zeichen in der zweiten Zeichenkette für ein Zeichen der ersten Zeichenkette 701 ermittelt werden konnte, der Initialisierungswert "-1" mit negativem Vorzeichen in dem entsprechenden Zeichenregister 701 gespeichert bleibt, wodurch eine Unterbrechung positiver Positionswerte in den Zeichenregistern 702 erzeugt würde.
    Die Länge der größten Überlappung wird gemäß diesem Ausführungsbeispiel relativ zur maximalen Überlappung, das heißt zur Länge der kürzeren Zeichenkette, gebildet.
    Je größer die (relative) Überlappung der zwei Zeichenketten 701, 704 ist, um so größer ist die gesamte
    Ähnlichkeit, das heißt der zu ermittelnde Ähnlichkeitswert.
    Gemäß diesem Ausführungsbeispiel ist die größte absolute Überlappung gleich 5 (Teilsequenz "Platz" für den Ausdruck "Sitzplatz" als erste Zeichenkette bzw. für die Teilsequenz "Plätz" für den Ausdruck "Plätze(sitze)".
    Somit ergibt sich der zweite Faktor zu 5/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette und zu 5/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette.
  • - Dritter Faktor (F3): Anteil der fehlenden Zeichen der ersten Zeichenkette, das heißt der Anteil der Zeichen der ersten Zeichenkette, für die kein entsprechendes Zeichen in der zweiten Zeichenkette ermittelt werden konnte:
    Zum Beispiel (Fig. 8a)
    F3 = 1 - (NumbMissingLetters(Wort1)/Len(Wort1)) = 1
    Die Anzahl der fehlenden Zeichen entspricht der Anzahl der in den Zeichenregistern 703 gespeicherten Initialisierungswerten "-1" nach erfolgter Eintragung der Zuordnungen, das heißt der Positionswerte in die Zeichenregister 702.
    Je größer der Anteil der fehlenden Zeichen ist, um so geringer ist die gesamte Ähnlichkeit der beiden zu vergleichenden Zeichenketten 701, 704.
    Gemäß dem Ausführungsbeispiel ist der dritte Faktor gleich 1 für den Ausdruck "Sitzplatz" als erste
    Zeichenkette und gleich 4 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette.
  • - Vierter Faktor (F4): Unzusammenhängigkeit:
    Zum Beispiel (Fig. 8a)
    F4 = sqrt(1.0 - (NumbSequences(Wort1, Wort2)/Len(Wort1))) = sqrt (1.0 - 1/9) = 0,94
    Die Unzusammenhängigkeit entspricht der Anzahl der Teilsequenzen von Zeichen zwischen den zwei Zeichenketten 701, 704. Der Anfang einer Teilsequenz in einem Zeichenregister 702 kann als positiver Wert, dessen Wert, der nicht um mehr als um einen Wert "1" größer ist als der in dem für das vorangegangene Zeichen der ersten Zeichenkette zugeordneten Zeichenregister 702 ist, ermittelt werden.
    Je größer die Anzahl von Teilsequenzen ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 701, 704.
    Gemäß dem Ausführungsbeispiel weist der vierte Faktor für beide Beispiele den Wert 2 auf.
  • - Fünfter Faktor (F5): Reihenfolge der Teilsequenzen:
    Zum Beispiel (Fig. 8a)
    F5 = sqrt(1.0 - (NumbReversals(wort1, Wort2) /Len(Wort1))) = sqrt(1.0 - 1/9) = 0,94
    Der fünfte Faktor F5 beschreibt, wie konsequent die zweite Zeichenkette die Zeichenreihenfolge der ersten Zeichenkette einhält, das heißt dieser entspricht.
    Ein Wechsel in der Reihenfolge wird in den Zeichenregistern 702 als positiver Wert identifiziert, der kleiner ist als der letzte positive Wert, der in einem vorangegangenen, das heißt einem vorangegangenen Zeichen innerhalb der ersten Zeichenkette zugeordneten Zeichenregister 702 gespeicherten Wert ist.
    Initialisierungswerte mit dem Wert "-1", die in dem Zeichenregister 702 noch gespeichert sind, die zwischen den zwei positiven Werten liegen, werden im Rahmen der Ermittlung des fünften Faktors gemäß diesem Ausführungsbeispiel ignoriert.
    Je größer die Anzahl von "Reihenfolgeumkehrungen" ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 701, 704.
  • - Sechster Faktor (F6): Der erste Buchstabe beider Zeichenketten 701, 704 ist gleich:
    Zum Beispiel (Fig. 8a)
    F6 = 1,5 wenn Erste(Wort1) == Erste(Wort2) sonst 1
    Wenn die ersten Zeichen der zwei Zeichenketten 701, 704 einander zugeordnet sind, das heißt wenn der Wert des ersten Buchstabe des Zeichenregisters 901 den Wert "0" aufweist, wird die gesamte Ähnlichkeit, das heißt der Ähnlichkeitswert erhöht.
  • - Siebter Faktor (F7): Umsetzungskosten:
    Zum Beispiel
    F7 = 1 - (Summe(Umsetzungskostenregister)/Len(Wort1) = 1 - (1.5/9) = 0,83
    Der siebte Faktor wird aus den Werten, die in den Umsetzungskostenregistern 703, das heißt den Umsetzungskostenwerten, berechnet.
    Je größer die Umsetzungskostenwerte sind, um so kleiner ist die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten.
  • - Achter Faktor (F8): Eine Zeichenkette ist Teilkette der anderen Zeichenkette:
    Zum Beispiel (Fig. 8a)
    wenn
    LongestSubsequence(Wort1, Wort2) == Len(Wort1) F8 =
    Sqrt(F1)
    sonst
    F8 = F1 = 9/13 = 0,69
    Der achte Faktor bedeutet anschaulich, dass die Länge der größten Überlappung (vgl. zweiter Faktor) gleich der Länge der kürzeren Zeichenkette ist.
    In diesem Fall wird die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten erhöht.
Die oben beschriebenen Faktoren 707 werden berücksichtigt, um einen Ähnlichkeitswert A 708 zu ermitteln.
Der Ähnlichkeitswert A 708 wird gemäß dem vorliegenden Ausführungsbeispiel gemäß folgender Vorschrift ermittelt:
Zum Beispiel (Fig. 8a)
Ähnlichkeit A (Wort1, Wort2) = = F2.F3.F4.F5.F6.F7.F8 = = 0,66.1.0,94.0,94.1.0,83.0,69 = 0,33
Es ist in diesem Zusammenhang anzumerken, dass die einzelnen Faktoren 707 grundsätzlich beliebig gewichtet werden können, abhängig von der jeweiligen Anwendung.
Auch kann grundsätzlich jede geeignete Funktion verwendet werden, um den Ähnlichkeitswert A 708 zu bilden.
Gemäß Vorschrift (1) weist der gebildete Ähnlichkeitswert A 708 einen absoluten Wert auf, der insbesondere im Vergleich mit einem weiteren Ähnlichkeitswert A 708 den Aussagegehalt hat, dass die jeweiligen Zeichenketten dann einander ähnlicher sind als andere Zeichenketten, für die der weitere Ähnlichkeitswert A 708 gebildet wurde, wenn ein Ähnlichkeitswert A 708 größer ist als ein weiterer Ähnlichkeitswert.
Es ist jedoch aufgrund des Ähnlichkeitswerts A 708 noch keine statistische Aussage darüber möglich, wie ähnlich die beiden verglichenen Zeichenketten einander tatsächlich sind.
Um einen für einen Benutzer anschaulicheren Wert in Form einer Übereinstimmungswahrscheinlichkeit darzustellen, wird eine Konvertierungsfunktionenschar 1001 verwendet, wie sie in Fig. 10 dargestellt ist.
Mittels der Konvertierungsfunktionenschar 1001 wird jeweils der ermittelte Ähnlichkeitswert 1002 in einen Wahrscheinlichkeitswert 1003 umgewandelt (Block 708 in Fig. 7).
Gemäß diesem Ausführungsbeispiel sind die erzeugten Wahrscheinlichkeitswerte in folgendem Sinne zu interpretieren:
  • - Wahrscheinlichkeitswert = 0.9000 (1003):
    1 von 10 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - Wahrscheinlichkeitswert = 0.9900 (1003):
    1 von 100 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - Wahrscheinlichkeitswert = 0.9990 (1003):
    1 von 1000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - Wahrscheinlichkeitswert = 0.9999 (1003):
    1 von 10000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - usw.
Wie in Fig. 10 dargestellt ist, wird die Konvertierungsfunktionenschar 1001 gebildet aus einer Schar unterschiedlicher Konvertierungsfunktionen 1004, 1005, 1006, 1007, 1008, die eine unterschiedliche Abbildungsfunktion darstellen abhängig von der Länge der jeweiligen Zeichenkette als Scharparameter.
Die Konvertierungsfunktionenschar 1001 kann bei Existenz einer Vielzahl technischer elektronischer Dokumente, die in dem Speicher 606 des Computers 609 gespeichert sind, mittels statistischer Analysen approximiert werden.
Eine Vielzahl von Zeichenkettenpaaren werden in diesem Fall zufällig aus den technischen Dokumenten ausgewählt.
Die Ähnlichkeit jedes Zeichenkettenpaars wird berechnet und die Frequenz jedes Ähnlichkeitswerts A 708 wird gespeichert.
Verschiedene Zeichenkettenlängen können verschiedene Konvertierungsfunktionen 1004, 1005, 1006, 1007, 1008 benötigen, weshalb die Vielzahl von Konvertierungsfunktionen 1004, 1005, 1006, 1007, 508 abhängig von der Zeichenkettenlänge als Scharparameter eingesetzt werden.
Die Konvertierungsfunktionen 1004, 1005, 1006, 1007, 1008 können auch sprachenabhängig, das heißt für die Sprache Deutsch, Englisch, Französisch usw. unterschiedlich ausgestaltet und der entsprechend eingesetzten Sprache angepasst werden.
Gemäß dem vorliegenden Ausführungsbeispiel wird folgende Konvertierungsfunktionenschar 1001 eingesetzt:
Wahrscheinlichkeit = K(Len(Wort1)) + + ((1 - K(Len(Wort1)).exp(Ähnlichkeit, P(Len(Wort1))),
wobei K und P über statistische Mittel für eine bestimmte Wortlänge vorgegeben sind.
Es hat sich ein Wahrscheinlichkeitswert von ≧ 0.999 als eine geeignete Grenze bei dem Einsatz des Verfahrens im Rahmen der Texterkennung für die tatsächliche Übereinstimmung der beiden Zeichenketten erwiesen.
Dies entspricht gemäß dem Ausführungsbeispiel einem Ähnlichkeitswert A 708 von ungefähr 0.4.
Gemäß einer alternativen Ausgestaltung der Erfindung ist der Erkenntnis Rechnung getragen worden, dass in vielen natürlichen Sprachen gewisse Sequenzen von Zeichen, insbesondere von Buchstaben, häufig vorkommen, die somit bei einem spezifischen Vergleich zweier Zeichenketten hinsichtlich ihrer spezifischen Ähnlichkeit nur einen geringen Informationsgehalt aufweisen.
Beispiele dafür sind Wortendungen wie "ung" und "keit" in der deutschen Sprache oder auch Buchstabensequenzen wie "ment", "sion" und "tion" in der englischen Sprache.
Solche Buchstabensequenzen können für die Wortähnlichkeitsfunktionen problematisch sein, da in diesem Fall nur oberflächliche Merkmale betrachtet werden, weil sie einen hohen Ähnlichkeitswert für Wortpaare, die keine tiefere Ähnlichkeit zueinander aufweisen, verursachen können.
Aufgrund dieser Erkenntnis ist es gemäß einer Ausgestaltung der Erfindung vorgesehen, solche Buchstabensequenzen, beispielsweise mittels statistischer Analysen (Häufigkeitsanalyse) in den gespeicherten technischen Dokumenten zu ermitteln und für die ermittelten, beispielsweise für die am häufigsten vorkommenden Buchstabenkombinationen diese als einzelnes logisches Zeichen zu betrachten und innerhalb des Verfahrens zum Bilden der Ähnlichkeitswerte und der entsprechenden Register zu berücksichtigen.
In diesem Fall wird die Länge der entsprechenden Zeichenketten und die Anzahl der verwendeten Zeichenregister 702 und Umsetzungskostenregister 703 entsprechend angepasst.
Fig. 11 zeigt den Einsatz des oben beschriebenen Verfahrens für eine verbesserte Textsuche in technischen elektronischen Dokumenten 1101, aus denen die Wörter 1102 des Dokuments 1101 ermittelt worden sind.
Bei diesem Verfahren wird für einen eingegebenen Suchbegriff 1103 für jedes Wort 1102 des Dokuments 1101 (Schritt 1104) jeweils eine Übereinstimmungswahrscheinlichkeit gemäß dem oben beschriebenen Verfahren ermittelt (Schritt 1105) und es wird überprüft (Überprüfungsschritt 1106), ob der ermittelte Übereinstimmungswahrscheinlichkeitswert einen vorgegebenen Schwellenwert 1107, gemäß diesem Ausführungsbeispiel einem Schwellenwert einer Wahrscheinlichkeit von 0.999 überschreitet.
Ist dies der Fall, so wird das entsprechende Wort 1102 des technischen Dokuments 1101 einer Suchbegriffsdatenbank 1108 hinzugefügt (Schritt 1109), das heißt in einem anschließenden Textsuchverfahren (Schritt 1110) wird dieses Wort 1102 des Dokuments ebenfalls als erste Zeichenkette berücksichtigt.
Ist der Schwellenwert jedoch nicht überschritten, so wird das entsprechende Wort 1102 des Dokuments der Suchbegriffsdatenbank 1108 nicht hinzugefügt.
Im Weiteren wird anhand des in Fig. 3 dargestellten Ablaufdiagramms 300 das Vorgehen zum Ermitteln der Relationen der Thesauruswörter für das jeweils betrachtete elektronische Dokument beschrieben (Block 103).
Die Vorgehensweise zum Ermitteln der Thesaurusrelationen erfolgt statistisch. Es wird bestimmt, welche Wort gemeinsam auftreten, ohne dass dies rein zufällig ist.
Um den Einfluss der Statistik zu reduzieren, wird das elektronische Dokument jeweils in Segmente, im Weiteren als Dokumentensegmente bezeichnet, unterteilt, die sich mit unterschiedlichen Teilthemen befassen (Schritt 301).
Auch die Aufteilung, das heißt die Segmentierung des elektronischen Dokuments in Dokumentensegmente erfolgt gemäß dem in [3] beschriebenen Verfahren.
Alternativ kann jedoch auch eine manuelle Segmentierung des jeweiligen elektronischen Dokuments erfolgen.
Für die einzelnen Dokumentensegmente wird anschließend untersucht (Block 302) welche Wörter des elektronischen Thesaurus 500 in dem jeweiligen Dokumentensegment häufiger vorkommt, als dies aufgrund des gesamten elektronischen Dokuments statistisch erwartet werden kann.
Dieser Schritt beruht auf der Annahme, dass die Begriffe, das heißt die Wörter in diesem Fall in einer besonderen Beziehung zu dem jeweiligen Teilthema des Dokumentensegments stehen und somit auch in einer Beziehung, das heißt Relation zueinander, welche dann als Relation zwischen den Wörtern in dem elektronischen Thesaurus 500 betrachtet werden.
Wenn Wörter in mehr als einem der Dokumentensegmente in dieser Weise gemeinsam auftreten, erhöht sich sogar die Relevanz der jeweiligen Relation zwischen den beiden Wörtern.
Wie oben beschrieben wurde, werden Wortvarianten berücksichtigt. Es wird somit für jedes Dokumentensegment (Block 302) und für jedes Wort des elektronischen Thesaurus 500, wie es in dem vorangegangenen Schritt (Block 102) ermittelt worden ist, ermittelt, ob das jeweilige Wort eine Auftrittshäufigkeit in dem jeweiligen elektronischen Dokument aufweist, welche größer ist als ein vorgegebener Häufigkeits- Schwellenwert (Schritt 304).
Ist dies der Fall, so wird das jeweilige Wort dem entsprechenden Satz von Wörtern, zwischen denen eine Relation in einem weiteren Schritt erzeugt wird, hinzugefügt (Schritt 305).
Ist dies nicht der Fall, so wird unmittelbar zu einem weiteren Prüfschritt (Schritt 306) übergegangen, ohne dass das jeweilige Wort dem Satz von Wörtern hinzufügt wird.
In dem weiteren Prüfschritt (Schritt 306) wird überprüft, ob alle Wörter des elektronischen Thesaurus 500 für das jeweilige Dokumentensegment schon bearbeitet worden sind.
Ist dies nicht der Fall, so wird die aus den Verfahrensschritten 303, 304 und eventuell 305 bestehende Iterationsschleife erneut durchlaufen für ein weiteres Wort des elektronischen Thesaurus, welches noch nicht berücksichtigt worden ist.
Sind alle Wörter in dem elektronischen Thesaurus 500 berücksichtigt worden, so wird in einem weiteren Schritt (Schritt 307) überprüft, ob der gebildete Satz von Wörtern mehr als ein Wort enthält.
Ist dies der Fall, so wird für die in dem jeweiligen Satz enthaltenen Wörter jeweils eine Relation zwischen den Wörtern, gemäß diesem Ausführungsbeispiel eine Vollverknüpfung, das heißt eine Relation zwischen jedem der in dem Satz von Wörtern enthaltenen Wörter, erzeugt und diesen Wörtern, das heißt anschaulich den Wortpaaren, zugeordnet (Schritt 308).
Besteht der Satz von Wörtern jedoch nur aus einem Wort, so wird direkt in einen darauffolgenden Prüfschritt (Schritt 309) übergegangen, in dem überprüft wird, ob alle Dokumentensegmente des elektronischen Dokuments bearbeitet worden sind.
Ist dies nicht der Fall, so wird ein nächstes, noch nicht bearbeitetes Dokumentensegment ausgewählt und das Verfahren der Verfahrensschritte 302, 304, 305, 306, 307, 308, 309 wird erneut durchgeführt.
Sind alle Dokumentensegmente bearbeitet, so ist das Verfahren zum Ermitteln der Relationen zwischen den Wörtern des elektronischen Thesaurus 500 beendet (Block 310).
Im Rahmen des in Fig. 3 dargestellten Vorgehens wird nicht nur der jeweilige Repräsentant einer Wortgruppe berücksichtigt. Das Verfahren wird für alle Wörter des elektronischen Thesaurus 500 durchgeführt.
Die Wörter, für die die in Schritt 304 dargestellte Bedingung erfüllt ist, werden segmentweise in Zwischenmengen in dem Speicher des Computers 609 gespeichert. Diese Zwischenmengen bilden die Grundlage für die im Weiteren erläuterten eigentlichen Relationen des elektronischen Thesaurus 500.
Wie in Fig. 4 in einem Ablaufdiagramm 400 gezeigt ist, werden für alle Wörter in einem Satz von Wörtern (Block 401) überprüft, ob das jeweilige Wort ein Repräsentant, anschaulich eine "ausgezeichnete" Wortvariante, beispielsweise ein Wortstamm, ist.
Der Begriff "Wortstamm" ist in diesem Zusammenhang nicht notwendigerweise im linguistischen Sinne zu interpretieren, das heißt es muss sich bei dem Wortstamm, das heißt bei dem Repräsentanten nicht um einen echten Wortstamm oder eine Wortgrundform handeln.
Die ausgezeichnete Wortvariante kann auch mit einem eher groben Algorithmus, das heißt mit einem eher heuristischen ungenauen Algorithmus aus der Menge aller Varianten eines Wortes, das heißt der Wörter einer Wortgruppe, ermittelt werden, beispielsweise gemäß der anschaulichen Vorgehensweise, dass die kürzeste Wortvariante auszuwählen ist, die nicht mit einem Satzzeichen endet, länger als eine vorgegebene oder aus der Länge des Originalworts zu berechnende Mindestlänge ist und im Alphabet vor allen gleich langen Wortvarianten steht.
Es wird somit in dem Prüfschritt (Schritt 402) überprüft, ob das Wort ein Repräsentant einer Wortgruppe ist.
Ist dies der Fall, so wird das Wort als Repräsentant ausgewählt (Schritt 403).
Ist dies nicht der Fall, so wird für das jeweilige Wort überprüft, ob es einer Wortgruppe mit einem entsprechenden Repräsentanten zugeordnet ist (Prüfschritt 404).
Ist dies der Fall, so wird aus der entsprechenden Wortgruppe, der das Wort zugeordnet ist, der Repräsentant ausgewählt (Schritt 403).
Ist dies jedoch nicht der Fall, so wird ein Repräsentant ermittelt (Schritt 405) und es wird eine Ähnlichkeitsbeziehung zwischen dem entsprechenden Wort und dem Repräsentanten erzeugt und diesen beiden zugeordnet (Schritt 406).
Nach der Auswahl des Repräsentanten (Schritt 403) wird in einem weiteren Prüfschritt (Schritt 407) überprüft, ob alle Wörter in dem Satz schon bearbeitet worden sind.
Ist dies nicht der Fall, so wird ein weiteres Wort aus dem betrachteten Satz ausgewählt und das oben beschriebene Verfahren mit den Verfahrensschritten 401, 402, 403, 404, 405, 406 wird erneut durchgeführt.
Sind jedoch alle Wörter in dem Satz schon bearbeitet worden, so wird für alle ausgewählten Repräsentanten (Block 408) eine Kombination der entsprechenden Relationen zwischen den Repräsentanten ermittelt und es wird eine Relationsstruktur erzeugt, die in dem elektronischen Thesaurus verwendet wird Schritt 409).
Es werden somit die auf die oben beschriebene Weise nach und nach ermittelten ausgezeichneten Wortvarianten aller Wörter der Zwischenmenge zu den Proximitätsrelationen kombiniert und eingetragen, bzw. wenn die gerade betrachtete Relation schon in dem Thesaurus enthalten ist, da sie schon für ein anderes Dokumentensegment ermittelt wurde, wird die Relevanz, die der jeweiligen Relation zugeordnet ist, erhöht (Schritt 410).
In einem weiteren Prüfschritt (Schritt 411) wird überprüft, ob alle Repräsentanten auf die oben beschriebene Weise schon bearbeitet worden sind.
Ist dies nicht der Fall, wird ein weiterer Repräsentant ausgewählt und die Verfahrensschritte 408, 409, 410, 411 werden erneut für den neu ausgewählten Repräsentanten durchgeführt.
Sind alle Repräsentanten jedoch bearbeitet, so wird der Verfahrensschritt des Einfügens von Relationen in den elektronischen Thesaurus 500 beendet (Block 412).
Die in den Verfahrensschritten 101, 102, 103, 104 jeweils für ein elektronisches Dokument ermittelten elektronischen Thesauri werden zu einem Gesamt-Thesaurus in einem weiteren Schritt (Schritt 105) zusammengefasst.
Die Zusammenfassung der elektronischen Thesauri zu einem Gesamt-Thesaurus kann durch unterschiedliche Mengenoperationen erfolgen, beispielsweise durch Schneiden, durch Vereinigen der entsprechenden Wörter in den jeweiligen elektronischen Thesauri oder durch Bilden einer neuen Gesamt- Burstiness pro Wort, beispielsweise als arithmetischen Mittelwert, der dann entsprechend zu berechnen ist.
Entsprechend wird auch für die Relationen zwischen den Wörtern in den jeweiligen elektronischen Thesauri vorgegangen. Bei den Relationen sollte aber zusätzlich sichergestellt sein, dass die an den Relationen beteiligten Wörter auch noch in der Menge der Wörter des neuen elektronischen Thesaurus enthalten sein sollen.
Auf diese Weise kommt man zu einem elektronischen Gesamt- Thesaurus, der für das gesamte Projekt sinnvoll und damit sehr aussagekräftig und verlässlich ist und nicht nur für einzelne elektronische Dokumente.
Um die Wartungsfreundlichkeit, das heißt die Anpassbarkeit und die Erweiterbarkeit der Relationen in dem auf die oben beschriebene Weise ermittelten elektronischen Thesaurus weiter zu verbessern und um bei der Benutzung des elektronischen Thesaurus Zeit und Speicherplatz einsparen zu können, sollten so wenige wie möglich aber so viele wie nötig Relationen gespeichert werden.
Aus diesem Grund wird die Speicherstruktur der Thesaurus- Relationen, wie sie in Fig. 5 dargestellt ist, vorgeschlagen.
Proximitätsrelationen gehen nur von einer ausgezeichneten Wortvariante, das heißt dem Repräsentanten einer Wortgruppe, aus. Alle anderen Wortvarianten der entsprechenden Wortgruppe können dann über den Zwischenschritt der Ähnlichkeitsrelation an der entsprechenden Proximitätsrelation Teil haben.
Dass dadurch auch Wortvarianten zueinander in Beziehung gesetzt werden, deren Proximität sich aus den ursprünglichen Dokumenten nicht ableiten lässt, ist bei entsprechenden Wortähnlichkeits-Erkennungsverfahren, wie oben beschrieben, ein positiver Nebeneffekt.
Das oben beschriebene Verfahren lässt sich in beliebiger Weise anwendungsabhängig parametrisieren.
Mögliche Parameter, die beliebig anwendungsabhängig angepasst werden können sind beispielsweise der Einfluss der Häufigkeit des jeweiligen Wortes auf seine Burstiness, der Einfluss der Verteilung des Wortes auf seine Burstiness, die zu erreichende Burstiness-Grenze etc..
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] WO 97/34242;
[2] R. Rosenfeld, A maximum entropy approach to adaptive
statistical language modeling, erhältlich im Internet im Februar 1999 unter der URL- Adresse: http:/ /www.cs.cmu.edu./~roni/me-csl-revised.ps;
[3] K. Richmond, A. Smith, E. Amitay, Detecting subject boundaries within text: a language independent statistical approach, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing, S. 47-54, 1997.

Claims (10)

1. Anordnung zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument,
mit einem Prozessor, der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von den ermittelten Burstiness-Werten der Wörter wird der elektronische Thesaurus ermittelt.
2. Anordnung nach Anspruch 1, bei der der Prozessor derart eingerichtet ist, dass für jedes Wort in dem elektronischen Dokument jeweils ein Burstiness-Wert ermittelt wird.
3. Anordnung nach Anspruch 1 oder 2, bei der der Prozessor derart eingerichtet ist, dass
einander gemäß einem vorgegebenen Ähnlichkeitskriterium ausreichend einander ähnliche Wörter zu einer Wortgruppe zusammen gruppiert werden, denen gemeinsam ein Wortgruppen-Burstiness-Wert zugeordnet wird, und
abhängig von den ermittelten Wortgruppen-Burstiness- Werten der Wortgruppen wird der elektronische Thesaurus ermittelt.
4. Anordnung nach einem der Ansprüche 1 bis 3, bei der der Prozessor derart eingerichtet ist, dass
abhängig von den Burstiness-Werten zwischen einzelnen berücksichtigten Wörtern Relationen ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen bestimmt wird.
5. Anordnung nach Anspruch 4,
bei der der Prozessor derart eingerichtet ist, dass die Relationen auf folgende Weise ermittelt werden:
es werden diejenigen Wörter ermittelt, deren Auftrittshäufigkeit größer ist als ein vorgegebener Häufigkeits-Schwellenwert, und
zwischen den ermittelten Wörtern wird eine Relation erzeugt,
6. Anordnung nach einem der Ansprüche 3 bis 5,
bei der der Prozessor derart eingerichtet ist, dass
jeder Wortgruppe mindestens ein Repräsentant zugeordnet wird,
Relationen zwischen den jeweiligen Repräsentanten ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen bestimmt wird.
7. Anordnung nach einem der Ansprüche 1 bis 6,
bei der der Prozessor derart eingerichtet ist, dass
das elektronische Dokument abhängig von den Burstiness- Werten in mehrere Dokumentensegmente segmentiert wird,
abhängig von den Burstiness-Werten zwischen einzelnen berücksichtigten Wörtern Relationen von Wörtern innerhalb der einzelnen Dokumentensegmente ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen aus den einzelnen Dokumentensegmente bestimmt wird.
8. Verfahren zum rechnergestützten Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument,
bei dem für zumindest einen Teil der Wörter des elektronischen Dokuments jeweils ein Burstiness-Wert ermittelt wird, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
bei dem abhängig von dem ermittelten Burstiness-Wert der Wörter der elektronische Thesaurus ermittelt wird.
9. Computerlesbares Speichermedium, in dem ein Computerprogramm zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
10. Computerprogramm-Element zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
DE10112572A 2001-03-15 2001-03-15 Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element Withdrawn DE10112572A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10112572A DE10112572A1 (de) 2001-03-15 2001-03-15 Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10112572A DE10112572A1 (de) 2001-03-15 2001-03-15 Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element

Publications (1)

Publication Number Publication Date
DE10112572A1 true DE10112572A1 (de) 2002-09-26

Family

ID=7677635

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10112572A Withdrawn DE10112572A1 (de) 2001-03-15 2001-03-15 Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element

Country Status (1)

Country Link
DE (1) DE10112572A1 (de)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LATINEN, Thimo: Automatic indexing on approach using an index term corpus and combining linguis- tic and statistical methods. Academic dissertationUniversity of Helsinki, 11. December 2000 *

Similar Documents

Publication Publication Date Title
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE4015905C2 (de) Sprachanalyseeinrichtung, -verfahren und -programm
DE112007000053T5 (de) System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
DE102013003055A1 (de) Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE602005002835T2 (de) Verfahren zur Identifizierung von redundantem Text in elektronischen Dokumenten
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE112010004914B4 (de) Indexieren von Dokumenten
DE112007000051T5 (de) Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE112020003767T5 (de) Erzeugen eines ausführbaren verfahrens aus einer textbeschreibung, die in einer natürlichen sprache geschrieben ist
EP2601594A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE112021006602T5 (de) Verfeinern von abfrage-erzeugungsmustern
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
WO2003054727A1 (de) Kategorisierungssystem für datenobjekte und verfahren zum prüfen der konsistenz von zuordnungen von datenobjekten zu kategorien
DE10112572A1 (de) Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element
EP2856344A1 (de) Erzeugung von anfragen an ein datenverarbeitendes system
DE112019006523T5 (de) Satzstrukturvektorisierungsvorrichtung, satzstrukturvektorisierungsverfahren und satzstrukturvektorisierungsprogramm
EP2682866B1 (de) Verfahren zur Umsetzung von Datenformaten
DE10112571A1 (de) Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal