DE10112572A1 - Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element - Google Patents
Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-ElementInfo
- Publication number
- DE10112572A1 DE10112572A1 DE10112572A DE10112572A DE10112572A1 DE 10112572 A1 DE10112572 A1 DE 10112572A1 DE 10112572 A DE10112572 A DE 10112572A DE 10112572 A DE10112572 A DE 10112572A DE 10112572 A1 DE10112572 A1 DE 10112572A1
- Authority
- DE
- Germany
- Prior art keywords
- electronic
- words
- determined
- thesaurus
- electronic document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt. Abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
Description
Die Erfindung betrifft eine Anordnung sowie ein Verfahren zum
Ermitteln eines elektronischen Thesaurus aus mindestens einem
elektronischen Dokument.
Eine solche Anordnung und ein solches Verfahren sind aus [1]
bekannt.
Insbesondere bei der Planung und Durchführung eines großen
Industrieprojekts, beispielsweise bei der Entwicklung und dem
Bau einer neuen großen Industrieanlage oder eines neuen
Kraftwerks, beispielsweise eines Gas-Turbinen-Kraftwerks oder
eines Kernkraftwerks, eines neuen Verkehrssystems oder
ähnlichem sind eine große Anzahl von Informationen in
mehreren technischen Dokumenten zu berücksichtigen.
Diese technischen Dokumente sind beispielsweise Lastenhefte,
Pflichtenhefte, Produktbeschreibungen, Verträge, technische
Normen, Schutzrechtsanmeldungen, Schutzrechte,
rechtsverbindliche Angebote, Versuchsberichte,
Verfahrensanweisungen, Protokolle, technische
Prinzipbeschreibungen, etc.
Es existieren somit zum einen sehr viele dieser elektronisch
erfassten und zu berücksichtigenden elektronischen Dokumente,
zum anderen können einzelne elektronische Dokumente in ihrem
Umfang sehr groß sein, beispielsweise eine Ausschreibung für
ein Industrieprojekt oder ein Pflichtenheft. Die Menge dieser
Dokumente ist insgesamt häufig zusätzlich in ihren
Eigenschaften und Verwendungszwecken sehr heterogen.
Die elektronischen Dokumente sind ferner von einer Vielzahl
unterschiedlicher Experten für unterschiedliche
Spezialgebiete zu analysieren und zu erfassen.
Für die Experten besteht jedoch ein erhebliches Problem
darin, eine spezifische gewünschte Information innerhalb der
großen Anzahl technischer Dokumente zu finden.
Um dieses Problem zu mindern, ist es bekannt, die technischen
Dokumente mittels eines Scanners elektronisch zu erfassen und
mittels eines Zeichenerkennungs-Verfahrens (Optical Character
Recognition, OCR) das elektronisch erfasste Dokument jeweils
zu analysieren und den jeweiligen Inhalt des Dokuments, das
heißt die einzelnen Zeichenketten, das heißt Wörter und
numerischen Zeichenketten, innerhalb des Dokuments zu
erkennen.
Ist die Information mittels eines OCR-Verfahrens umgesetzt
und gespeichert, kann beispielsweise mittels bekannter
rechnergestützter Suchverfahren gewünschte Information durch
Eingabe von Suchbegriffen in den gespeicherten elektronischen
Dokumenten ermittelt werden.
In diesem Zusammenhang ist es bekannt, im Rahmen eines
Suchverfahrens einen sogenannten elektronischen Thesaurus,
das heißt eine Sammlung von Begriffen aus einem vorgegebenen
Begriffsbereich bzw. Themengebiet, das auch als Domäne
bezeichnet wird, und von Beziehungen, die im Weiteren auch
als Relationen bezeichnet werden, zwischen diesen Begriffen,
zu verwenden.
Unter einem elektronischen Thesaurus ist im weiteren ein
elektronisches strukturiertes Wörterbuch zu verstehen, bei
dem einem Begriff jeweils Beziehungen zugeordnet sind,
beispielsweise Synonym-Beziehungen, Akronym-Beziehungen,
Oberbegriffs-Unterbegriffs-Beziehungen etc. Ein
elektronischer Thesaurus kann somit beliebig relational oder
auch hierarchisch strukturiert sein.
Ein Wort ist eine Zeichenkette aus alphanumerischen und
numerischen Zeichen oder anderen beliebigen Sonderzeichen;
ohne Semantik. Ein Begriff/Term dagegen entspricht einer
Bedeutung.
Ein elektronischer Thesaurus kann somit beispielsweise bei
der Suche von relevanten Textteilen in einem elektronischen
Dokument eingesetzt werden, indem entweder dem Benutzer
mögliche Suchbegriffe aus dem elektronischen Thesaurus
angeboten werden, oder indem eine bereits von dem Benutzer
vorgegebene Suchbegriffsmenge automatisch mit weiteren
Verwandten, das heißt den jeweiligen Suchbegriffen aus der
Suchbegriffsmenge ausreichend ähnlichen und
erfolgversprechenden Suchbegriffen erweitert wird.
Für die Indizierung von elektronischen Dokumenten kann der
elektronische Thesaurus Deskriptoren vorgeben oder
vorschlagen.
Auch bei der Präsentation von elektronischen Dokumenten kann
ein elektronischer Thesaurus eine bedeutende Rolle spielen,
etwa wenn es darum geht, automatische Relationen (sogenannte
Hyperlinks gemäß der Hypertext Markup Language, HTML)
zwischen einzelnen Teilen eines elektronischen Dokuments oder
zwischen einzelnen elektronischen Dokumenten zu erstellen. In
diesem Zusammenhang könnte die Ähnlichkeit zweier
Textstellen, das heißt Textbereichen, einzelner
elektronischer Dokumente bezüglich der von dem elektronischen
Thesaurus vorgegebenen Ähnlichkeitsgrad der Begriffe der
einzelnen Textbereiche ermittelt werden.
Aus diesen Erläuterungen wird ersichtlich, dass einem
elektronischen Thesaurus eine erhebliche Bedeutung im Rahmen
der automatisierten Textverarbeitung zukommt.
Ein erheblicher Nachteil eines elektronischen Thesaurus ist
jedoch bisher darin zu sehen, dass die Erstellung eines
elektronischen Thesaurus durch einen oder mehrere Experten
auf dem jeweiligen Gebiet, auf das sich der elektronische
Thesaurus beziehen soll, äußerst zeitintensiv ist und deshalb
eine projektspezifische Erstellung eines elektronischen
Thesaurus üblicherweise nicht erfolgen kann.
Ferner ist ein solcher elektronischer Thesaurus üblicherweise
sprachenabhängig und domänenabhängig und muss für jede
Sprache und für jedes Themengebiet erneut üblicherweise
manuell erstellt werden.
Bei dem aus [1] bekannten Verfahren zum Erstellen eines
statistischen elektronischen Thesaurus aus einer Menge
elektronischer Dokumente und dessen Nutzung für die
Erweiterung einer Suchanfrage bei der automatischen Textsuche
in der Menge der elektronischen Dokumente wird der erzeugte
statistische elektronische Thesaurus als eine Menge von
Sätzen gebildet, wobei jeder Satz eine Menge von Termen
enthält, die gemeinsam in einem Textabschnitt auftreten.
Diese Menge von Termen wird in eine vorgegebene Zahl, gemäß
[1] fünf Termengruppen, aufgeteilt, wobei eine erste
Termengruppe "1" die wichtigsten Terme für den Textabschnitt
aufweist und eine fünfte Termengruppe "5" die unwichtigsten,
aber immer noch für die Textsuche relevanten Terme.
Der erzeugte elektronische Thesaurus ist eng an einzelne
elektronische Dokumente geknüpft. Zwei Begriffe stehen
implizit dann gemäß [1] zueinander in Relation, wenn sie zu
derselben Termgruppe eines elektronischen Dokuments
zugeordnet sind. Es gibt gemäß [1] keine explizite Relation
zwischen zwei Begriffen. Insbesondere gibt es keine Aussagen
über die Verwandtschaft von Termen über Grenzen zweier
elektronischer Dokumente hinweg, somit auch keine Aussage
über die Verwandtschaft, das heißt Ähnlichkeit von Termen
innerhalb aller betrachteten Dokumente der Menge
elektronischer Dokumente.
Dies wäre aber erforderlich, um die Ähnlichkeit von Termen im
gesamten Projektkontext zu erkennen und somit auf einfache
Weise auf neue, zum Projekt ergänzend erweiterte
elektronische Dokumente, beispielsweise Erfahrungsberichte,
anzuwenden.
Bei der Erzeugung des elektronischen Thesaurus wird ein
einzelnes elektronisches Dokument als eine Einheit
betrachtet.
Für sehr große elektronische Dokumente, wie sie in großen
technischen Projekten anfallen, ist dies jedoch sehr
problematisch, da diese elektronischen Dokumente sich mit
sehr unterschiedlichen Aspekten eines Projekts beschäftigen
und somit nur sehr schwer zu entscheiden ist, welche die
wichtigen und welche die unwichtigen Terme des elektronischen
Dokuments sind.
Das aus [1] bekannte Verfahren eignet sich deshalb eher für
Texte aus kleineren elektronischen Dokumenten, die jeweils
nur wenige Themen, am besten nur eines, fokussieren.
Ferner ist es aus [2] bekannt, einander ähnliche Wörter zu
einer Wortgruppe mit mindestens jeweils einem Repräsentanten
zu gruppieren unter Verwendung morphologischer Verfahren.
Bei dem aus [2] bekannten Verfahren werden Wortpaare
ermittelt, die mit erhöhter Wahrscheinlichkeit nacheinander
im Text in einem elektronischen Dokument vorkommen. Die Menge
der zu untersuchenden Wörter muss jedoch vorgegeben sein; das
Verfahren gemäß [2] findet also nicht selbständig
Wortkandidaten für einen elektronischen Thesaurus.
Aus diesem Grund ist das Verfahren aus [2] nicht mehr
sprachenunabhängig. Sogenannte Trigger-Relationen zwischen
häufig auftretenden Wörtern werden bevorzugt vor Relationen
zwischen weniger häufig auftretenden Wörtern aufgenommen.
Dies ist zwar unkritisch, solange eine sinnvolle Wortmenge
vorgegeben ist. Ist dies jedoch nicht der Fall, das heißt ist
keine sinnvolle Wortmenge vorgegeben, werden gemäß dem aus
[2] bekannten Verfahren Relationen zwischen zwei häufig
auftretenden, aber wenig Informationsgehalt aufweisenden
Wörtern, wie beispielsweise den Begriffen "in" oder "den"
oder "dem", ermittelt werden.
Das aus [2] bekannte Verfahren basiert somit auf der
Bestimmung relevanter Wörter für einen elektronischen
Thesaurus aus einem elektronischen Dokument auf der Grundlage
lediglich der Auftrittshäufigkeit der Wörter in dem
elektronischen Dokument.
Dieses Verfahren hat somit insbesondere den Nachteil, dass
auch Füllwörter wie beispielsweise "ein" als elektronischer
Thesaurusbegriff ausgewählt werden.
Um diese Wörter wieder aus dem elektronischen Thesaurus zu
entfernen, müssen sie mit einer Stoppwortliste, also einer
Liste irrelevanter Wörter, abgeglichen. Diese Stoppwortliste
muss in der Regel manuell erstellt werden. Das Erstellen ist
somit zeitaufwendig und komplex und ferner fehlerbehaftet.
Weiterhin ist diese Vorgehensweise sehr unflexibel und
sprachenabhängig.
Weiterhin ist es aus [3] bekannt, im Rahmen der Segmentierung
eines oder mehrerer elektronischer Dokumente in einzelne
Themenkomplexe Wörtern aus dem elektronischen Dokument
sogenannte Burstiness-Werte zuzuordnen, wobei in einem
Burstiness-Wert sowohl die Auftrittshäufigkeit des Wortes in
dem elektronischen Dokument als auch die Ungleichmäßigkeit
seiner Verteilung, das heißt der Auftrittsverteilung
innerhalb des elektronischen Dokuments berücksichtigt wird.
Der Erfindung liegt das Problem zugrunde, eine Anordnung
sowie ein Verfahren zum automatisierten Ermitteln eines
elektronischen Thesaurus aus mindestens einem elektronischen
Dokument anzugeben, wobei die Ermittlung des elektronischen
Thesaurus sprachenunabhängig erfolgen kann.
Das Problem wird durch die Anordnung und das Verfahren zum
Ermitteln eines elektronischen Thesaurus aus mindestens einem
elektronischen Dokument, das Computerlesbare Speichermedium
und das Computerprogramm-Element mit den Merkmalen gemäß den
unabhängigen Patentansprüchen gelöst.
Eine Anordnung zum Ermitteln eines elektronischen Thesaurus
aus mindestens einem elektronischen Dokument weist einen
Prozessor auf, der derart eingerichtet ist, dass die im
Weiteren beschriebenen Verfahrensschritten durchführbar sind.
Ferner kann ein Speicher vorgesehen sein, in dem die für das
Verfahren erforderlichen Daten gespeichert werden.
Die Anordnung kann sowohl ein einzelner üblicher Computer
oder auch eine verteilte Rechneranordnung sein, bei der die
einzelnen Rechner mittels eines Rechnernetzes miteinander
gekoppelt sind und die einzelnen Verfahrensschritte auf
unterschiedlichen Rechnern durchgeführt werden können.
Für mindestens einen Teil der Wörter in dem elektronischen
Dokument wird jeweils ein Burstiness-Wert ermittelt. Der
Burstiness-Wert ist abhängig von der Auftrittshäufigkeit des
jeweiligen Wortes in dem elektronischen Dokument und der
Auftrittsverteilung, das heißt der örtlichen Verteilung der
Wörter innerhalb des elektronischen Dokuments, das heißt der
Verteilung, in der das jeweilige Wort in dem elektronischen
Dokument auftritt. Abhängig von den jeweiligen Burstiness-
Werten, die den Wörtern zugeordnet sind, wird der
elektronische Thesaurus ermittelt.
Bei einem Verfahren zum rechnergestützten Ermitteln eines
elektronischen Thesaurus aus mindestens einem elektronischen
Dokument wird für zumindest einen Teil der Wörter des
elektronischen Dokuments jeweils ein Burstiness-Wert
ermittelt, der abhängig ist von der Auftrittshäufigkeit des
jeweiligen Wortes in dem elektronischen Dokuments und der
Verteilung, in der das jeweilige Wort in dem elektronischen
Dokument auftritt. Abhängig von den ermittelten Burstiness-
Werten, die den Wörtern zugeordnet sind, wird der
elektronische Thesaurus ermittelt.
Durch die Berücksichtigung der Burstiness-Werte bei der
Ermittlung des elektronischen Thesaurus wird ein flexibles,
schnelles und einfaches und somit kostengünstiges Vorgehen
zur Ermittlung eines elektronischen Thesaurus angegeben.
Der elektronische Thesaurus kann erfindungsgemäß
sprachenunabhängig ermittelt werden. Der elektronische
Thesaurus wird vollautomatisiert ermittelt.
Weiterhin ist ein Computerlesbares Speichermedium vorgesehen,
in dem ein Computerprogramm zum Ermitteln eines
elektronischen Thesaurus aus mindestens einem elektronischen
Dokument gespeichert ist, das, wenn es von einem Prozessor
ausgeführt wird, die oben beschriebenen Verfahrensschritte
aufweist.
Ein Computerprogramm-Element zum Ermitteln eines
elektronischen Thesaurus aus mindestens einem elektronischen
Dokument weist bei dessen Ausführung durch einen Prozessor
die oben beschriebenen Verfahrensschritte auf.
Die Erfindung kann sowohl in Software, das heißt mittels
eines Computerprogramms, als auch zum Teil oder vollständig
mittels einer elektronischen speziellen Schaltung, das heißt
in Hardware, implementiert werden.
Anschaulich kann die Erfindung darin gesehen werden, dass
nicht mehr lediglich die Häufigkeitsinformation, das heißt
die Auftrittshäufigkeit eines jeweiligen Wortes in einem
elektronischen Dokument zur Erstellung eines elektronischen
Thesaurus berücksichtigt wird, sondern nunmehr die
Burstiness, das heißt die Auftrittshäufigkeit des jeweiligen
Wortes und die Verteilung der jeweiligen Wörter innerhalb des
elektronischen Dokuments.
Durch die Berücksichtigung der Burstiness als Kriterium für
die Aufnahme eines Wortes in den zu bildenden elektronischen
Thesaurus wird automatisiert gewährleistet, dass Wörter,
insbesondere Füllwörter wie beispielsweise "ein", "der" etc.,
nicht in den elektronischen Thesaurus aufgenommen werden, da
diese eine geringe Burstiness aufweisen, weshalb
erfindungsgemäß auf eine zusätzlich, üblicherweise manuell
erstellte Stoppwortliste verzichtet werden kann.
Das Auffinden der Thesauruswörter ist sprachenunabhängig und
hängt nicht von der Qualität einer Stoppwortliste ab.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den
abhängigen Ansprüchen.
Die im Weiteren beschriebenen Ausgestaltungen gelten sowohl
für die Anordnung als auch für das Verfahren, das
Computerlesbare Speichermedium und das Computerprogramm-
Element.
Gemäß einer Ausgestaltung der Erfindung ist es vorgesehen,
dass für jedes Wort in dem elektronischen Dokument jeweils
ein Burstiness-Wert ermittelt wird.
Einander gemäß einem vorgegebenen Ähnlichkeitskriterium
einander ausreichend ähnliche Wörter können zu einer
Wortgruppe gemeinsam gruppiert werden, denen gemeinsam
jeweils ein Wortgruppen-Burstiness-Wert zugeordnet wird.
Abhängig von den Burstiness-Werten und/oder den Wortgruppen-
Burstiness-Werten kann zwischen einzelnen berücksichtigten
Wörtern oder Wortgruppen, insbesondere für den Fall, dass
einzelnen Wortgruppen jeweils ein Repräsentant zugeordnet
wird, den Repräsentanten der Wortgruppen, Relationen zwischen
den einzelnen Wörtern oder Repräsentanten ermittelt werden
und den entsprechenden Wörtern zugeordnet werden. In diesem
Fall erfolgt die Ermittlung des elektronischen Thesaurus
unter Berücksichtigung der bestimmten Relationen.
Werden die Wörter in Wortgruppen gruppiert und jeder
Wortgruppe jeweils ein Repräsentant zugeordnet, so wird gemäß
dieser Ausgestaltung der Rechenzeitbedarf zur Durchführung
des Verfahrens erheblich verringert.
Die Relationen können auf folgende Weise ermittelt werden. Es
werden diejenigen Wörter ermittelt, deren Auftrittshäufigkeit
größer ist als ein vorgegebener Häufigkeits-Schwellenwert.
Zwischen den ermittelten Wörtern wird eine Relation erzeugt.
Durch diese Ausgestaltung der Erfindung wird aufgrund der
Berücksichtigung der einzelnen Relationen zwischen den
Wörtern die Verlässlichkeit und damit die Qualität des
elektronischen Thesaurus weiter verbessert.
Gemäß einer weiteren Ausgestaltung der Erfindung ist es
vorgesehen, dass das elektronische Dokument abhängig von den
Burstiness-Werten, die den einzelnen Wörtern zugeordnet sind,
in mehrere Dokumentensegmente segmentiert werden. Abhängig
von den Burstiness-Werten werden jeweils innerhalb eines
Dokumentensegments zwischen einzelnen berücksichtigten
Wörtern für das Dokumentensegment Relationen ermittelt und
der elektronische Thesaurus wird unter Berücksichtigung der
ermittelten Relationen aus den einzelnen Dokumentensegmenten
bestimmt.
Durch diese Ausgestaltung der Erfindung wird die Qualität und
Verlässlichkeit des ermittelten elektronischen Thesaurus
weiter erhöht.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren
dargestellt und wird im Weiteren näher erläutert.
Es zeigen
Fig. 1 ein Ablaufdiagramm, in dem die einzelnen
Verfahrensschritte gemäß einem Ausführungsbeispiel
der Erfindung dargestellt sind;
Fig. 2 ein Ablaufdiagramm, in dem die einzelnen Schritte zum
Ermitteln der für den elektronischen Thesaurus
verwendeten Wörter im Rahmen des Verfahrens gemäß
einem Ausführungsbeispiel der Erfindung dargestellt
sind;
Fig. 3 ein Ablaufdiagramm, in dem die einzelnen
Verfahrensschritte zum Ermitteln der Relationen
zwischen den Wörtern des elektronischen Thesaurus im
Rahmen des Verfahrens gemäß einem Ausführungsbeispiel
der Erfindung dargestellt sind;
Fig. 4 ein Ablaufdiagramm, in dem die einzelnen
Verfahrensschritte zum Ermitteln von Relationen
zwischen Repräsentanten von Wortgruppen im Rahmen des
Verfahrens gemäß einem Ausführungsbeispiel der
Erfindung dargestellt ist;
Fig. 5 eine Skizze, in der die Struktur eines elektronischen
Thesaurus gemäß einem Ausführungsbeispiel der
Erfindung vereinfacht dargestellt ist;
Fig. 6 ein Blockdiagramm, in dem ein Scanner und ein
Computer zum Erfassen und Speichern elektronischer
Dokumente gemäß einem Ausführungsbeispiel der
Erfindung dargestellt sind;
Fig. 7 ein Ablaufdiagramm, in dem die einzelnen
Verfahrensschritte des Verfahrens zum Ermitteln der
Ähnlichkeit einer elektronischen ersten Zeichenkette
(einem ersten Wort) mit einer elektronischen zweiten
Zeichenkette (einem zweiten Wort) dargestellt sind;
Fig. 8a und 8b zwei Beispiele der Initialisierung eines
Buchstabenregisters und eines
Umsetzungskostenregisters anhand zweier
unterschiedlicher Zeichenketten;
Fig. 9a und 9b zwei Beispiele des Inhalts des
Buchstabenregisters und des Umsetzungskostenregisters
für zwei unterschiedliche Vergleiche zweier
Zeichenketten gemäß einem Ausführungsbeispiel der
Erfindung;
Fig. 10 eine Skizze einer Konvertierungsfunktion, mit der
ein Ähnlichkeitswert auf einen
Wahrscheinlichkeitswert abgebildet wird;
Fig. 11 ein Blockdiagramm, in dem die Erweiterung von
Suchbegriffen unter Verwendung des Verfahrens gemäß
einem Ausführungsbeispiel der Erfindung dargestellt
ist.
Fig. 6 zeigt ein elektronisches Dokumentationssystem 600,
mittels dem eine Vielzahl technischer Dokumente 601,
beispielsweise Lastenhefte, Pflichtenhefte,
Produktbeschreibungen, Projektverträge etc. erfasst,
verarbeitet und gespeichert werden.
Die technischen Dokumente 601 werden mittels eines Scanners
602 erfasst, digitalisiert und als digitalisierte Dokumente
604 einem Computer 609, der mit dem Scanner 602 über eine
Leitung 603 oder einer Funkverbindung oder einer
Infrarotverbindung verbunden ist, zugeführt.
Der Computer 609 weist eine Eingangs-/Ausgangs-Schnittstelle
605 auf, die über einen Computerbus 608 mit einem Prozessor
607 und einem Speicher 606 des Computers 609 gekoppelt ist.
Ferner ist der Computer 609 über die Eingangs-/Ausgangs-
Schnittstelle 605 über eine zweite Leitung 610 mit einem
Bildschirm 611 zur Darstellung von ermittelter
Ergebnisinformation verbunden.
Weiterhin ist der Computer 609 über die Eingangs-/Ausgangs-
Schnittstelle 605 über eine dritte Leitung 612 mit einer
Computermaus 613 und über eine vierte Leitung 614 mit einer
Tastatur 615 verbunden.
Die digitalisierten technischen elektronischen Dokumente 604
werden in dem Speicher 606 des Computers 609 gespeichert und
es wird ein Zeichenerkennungsverfahren (OCR-Verfahren) auf
die technischen digitalisierten Dokumente 604 durchgeführt
mittels des Prozessors 607, wodurch OCR-bearbeitete
technische elektronische Dokumente erzeugt werden, die
wiederum in dem Speicher 606 des Computers 609 gespeichert
werden.
Die technischen elektronischen Dokumente 604 liegen nach der
OCR-Bearbeitung als elektronische Zeichenketten vor, die
beispielsweise gemäß dem ASCII-Standard codiert sind.
Wie in dem Ablaufdiagramm 100 in Fig. 1 dargestellt ist, weist
das von dem Computer 609 durchgeführte Verfahren zum
Ermitteln eines elektronischen Thesaurus folgende
Verfahrensschritte auf.
Für alle elektronischen Dokumente (Block 101) werden die in
einem elektronischen Thesaurus berücksichtigten Wörter aus
dem jeweils in der Iterationsschleife betrachteten
elektronischen Dokument ermittelt (Block 102).
In einem weiteren Schritt (Schritt 103) werden für die
ermittelten Wörter, die in dem elektronischen Thesaurus
berücksichtigt werden, für das jeweils betrachtete
elektronische Dokument die jeweiligen Relationen zwischen den
Wörtern ermittelt.
In einem weiteren Schritt (Schritt 104) wird überprüft, ob
alle zu berücksichtigenden elektronischen Dokumente
tatsächlich schon bearbeitet wurden, das heißt, ob in allen
elektronischen Dokumenten schon Wörter für den elektronischen
Thesaurus ermittelt worden sind.
Ist dies nicht der Fall, so wird ein weiteres, noch nicht
bearbeitetes elektronisches Dokument ausgewählt und die
Iterationsschleife der Verfahrensschritte 101, 102, 103, 104
wird erneut für das nunmehr ausgewählte elektronische
Dokument durchlaufen.
Sind alle elektronischen Dokumente jedoch bearbeitet worden,
so werden aus den einzelnen elektronischen Dokumenten die
ausgewählten, das heißt ermittelten Wörter für den
elektronischen Thesaurus zusammengeführt (Schritt 105).
In einem weiteren Schritt (Schritt 106) werden für die
jeweiligen Wörter des elektronischen Thesaurus die jeweiligen
ermittelten Relationen zwischen den Wörtern aus den einzelnen
elektronischen Dokumenten für den elektronischen Thesaurus
über alle elektronischen Dokumente hinweg zusammengeführt.
Nachdem dies erfolgt ist, wird das Verfahren beendet
(Schritt 107).
Fig. 5 zeigt zum einfacheren Verständnis ein Beispiel eines
elektronischen Thesaurus 500, der eine Vielzahl,
grundsätzlich eine beliebige Anzahl von Wörtern 501 aufweist,
die gemäß diesem Ausführungsbeispiel, allgemein jedoch nicht
zwingend, gemäß dem im Weiteren noch detailliert erläuterten
Verfahren zu einzelnen Wortgruppen 502, 503, 504 je nach der
entsprechenden Ähnlichkeit der Wörter innerhalb einer
Wortgruppe 502, 503, 504 miteinander gruppiert werden.
Jeder Wortgruppe 502, 503, 504 wird ein Repräsentant 505,
506, 507 der jeweiligen Wortgruppe 502, 503, 504 zugeordnet.
Die entsprechenden, dem Repräsentant 505, 506, 507 der
jeweiligen Wortgruppe 502, 503, 504 jeweils zugeordneten
Wörter 501 weisen jeweils eine, in Fig. 5 mittels eines Pfeils
508 symbolisierten Ähnlichkeitsgrad miteinander sowie mit dem
jeweiligen Repräsentanten 505, 507, 507 auf.
Wie im Weiteren noch detailliert erläutert wird, wird gemäß
dem im Weiteren beschriebenen Verfahren zwischen den
einzelnen Repräsentanten 505, 506, 507 jeweils eine Relation
509, 510, 511 erzeugt, wenn diese ausreichend miteinander
semantisch verknüpft sind.
Anschaulich beschreiben die Relationen eine gewisse
Proximität, was in diesem Zusammenhang bedeutet, dass zwei
Repräsentanten, allgemein zwei Wörter oder ihre Varianten
gemeinsam in den jeweiligen Dokumenten auftreten, ohne dass
dieses gemeinsame Auftreten zufällig ist.
In dem Ablaufdiagramm 200 aus Fig. 2 ist die Vorgehensweise
zum Ermitteln der in dem elektronischen Thesaurus 500
berücksichtigten Wörter für das jeweils betrachtete
elektronische Dokument beschrieben (Block 102).
In diesem Zusammenhang ist anzumerken, dass die Erfindung
nicht auf eine Vielzahl von elektronischer Dokumente
beschränkt ist, sondern sie kann ebenso lediglich auf ein
elektronisches Dokument beliebiger Größe angewendet werden,
in welchem Fall lediglich eine Iteration des in Fig. 1
dargestellten Ablaufdiagramms 100 durchgeführt wird.
Für alle voneinander unterschiedlichen Wörter, die in dem
elektronischen Dokument enthalten sind (Block 201) wird die
Burstiness, das heißt ein Burstiness-Wert, berechnet
(Schritt 202) gemäß der in [3] beschriebenen Vorgehensweise.
Ist der jeweilige Burstiness-Wert größer als ein vorgegebener
Schwellenwert, was in einem Prüfschritt (Schritt 203)
überprüft wird, so werden für das jeweils berücksichtigte
Wort für gemäß dem im Weiteren beschriebenen Verfahren zu dem
jeweiligen Wort ausreichend ähnliche Wörter ermittelt, um in
diesem Fall, wenn ausreichend ähnliche Wörter existieren,
diese gemeinsam zu einer Wortgruppe zu gruppieren
(Schritt 204).
Auf jeden Fall wird das ermittelte Wort für den Fall, dass
der Burstiness-Wert des entsprechenden Wortes größer ist als
der Schwellenwert, in dem elektronischen Thesaurus 500
berücksichtigt, das heißt in die Thesaurusstruktur
auf genommen.
Ist der Burstiness-Wert des entsprechenden untersuchten
Wortes nicht größer als der vorgegebene Schwellenwert, so
wird das entsprechende Wort nicht in den elektronischen
Thesaurus aufgenommen.
In einem weiteren Schritt (Schritt 205) wird überprüft, ob
alle Wörter in dem elektronischen Dokument schon
berücksichtigt worden sind, das heißt ob für jedes Wort in
dem elektronischen Dokument schon ein Burstiness-Wert
ermittelt worden ist.
Ist dies nicht der Fall, so wird die Iteration der
Verfahrensschritte 201, 202, 203, optional Schritt 204,
erneut für das weitere Wort in dem elektronischen Dokument
durchgeführt.
Sind alle Wörter berücksichtigt, das heißt wurden für jedes
Wort in dem elektronischen Dokument ein Burstiness-Wert
ermittelt, so ist der Verfahrensschritt zum Ermitteln der
Wörter für den elektronischen Thesaurus 500 in dem jeweils
betrachteten elektronischen Dokument (Block 102) beendet
(Block 206).
Im Weiteren wird anhand der Fig. 7 bis Fig. 11 die
Vorgehensweise zum Ermitteln der Ähnlichkeit zweier Wörter,
allgemein zweier Zeichenketten gemäß diesem
Ausführungsbeispiel ermittelt.
Ist die Ähnlichkeit zweier elektronischer Zeichenketten, das
heißt zweier Wörter, ausreichend groß, so werden diese Wörter
zu einer Wortgruppe gruppiert.
Ist dies nicht der Fall, so werden die jeweils überprüften
Wörter nicht einer gemeinsamen Wortgruppe zugeordnet.
Wie in Fig. 7 gezeigt ist, ist für jedes Zeichen einer ersten
Zeichenkette 701 ein Zeichenregister 702 vorgesehen, welchem
Zeichenregister 702 jeweils ein Umsetzungskostenregister 703
zugeordnet ist.
In den Zeichenregister 702 wird, wie im Weiteren näher
erläutert wird, die Zuordnung zwischen je zwei Zeichen der
ersten Zeichenkette 701 und einer jeweils berücksichtigten
zweiten Zeichenkette 704 gespeichert.
In einem Umsetzungskostenregister 703 wird, wie im Weiteren
ebenfalls näher erläutert wird, jeweils der Unterschied
zwischen zwei einander zugeordneten Zeichen der ersten
Zeichenkette 701 und der zweiten Zeichenkette 704
gespeichert.
Gemäß diesem Ausführungsbeispiel wird jedes Zeichenregister
702 mit einem ersten Wert (gemäß diesem Ausführungsbeispiel
dem Wert "-1") initialisiert.
Ferner wird jedes Umsetzungskostenregister 703 mit einem
zweiten Wert (gemäß diesem Ausführungsbeispiel mit dem Wert
"1") initialisiert.
Fig. 3a zeigt die Initialisierung der Buchstabenregister 702
sowie der Umsetzungskostenregister 703 für das Wort
"Sitzplatz" als erste Zeichenkette 701.
Wie Fig. 3a zu entnehmen ist, sind für das Wort "Sitzplatz"
neun Buchstabenregister 702 und neun Umsetzungskostenregister
703 vorgesehen, was der Länge des Wortes, das heißt der
Anzahl der Buchstaben, allgemein der Zeichen, in der ersten
Zeichenkette 701 entspricht.
Gemäß dem in Fig. 3a dargestellten Ausführungsbeispiel ist die
Zeichenfolge "Plätze(sitze)" als zweite Zeichenkette 704
gewählt.
Gemäß Fig. 3b ist die Initialisierung für ein Beispiel
dargestellt, bei dem der Ausdruck "Plätze(sitze)" als erste
Zeichenkette 704 gewählt wurde und der Ausdruck "Sitzplatz"
als zweite Zeichenkette 704.
Wie Fig. 3b zu entnehmen ist, sind für diesen Fall dreizehn
Zeichenregister 702 und Umsetzungskostenregister 703
vorgesehen, die mit dem entsprechenden Wert "-1"
(Zeichenregister 702) bzw. "1" (Umsetzungskostenregister 703)
initialisiert werden, entsprechend der Anzahl der Zeichen in
dem Ausdruck "Plätze(sitze)".
In einem weiteren Schritt wird die Position eines Zeichens
der zweiten Zeichenkette 704 für ein Zeichen der ersten
Zeichenkette 701 ermittelt und in das dem jeweiligen Zeichen
der ersten Zeichenkette 701 zugeordnete Buchstabenregister
eingetragen, das heißt gespeichert, wobei die Position
desjenigen Zeichens der zweiten Zeichenkette 704 gespeichert
wird, die gemäß einem vorgegebenen Kriterium zu dem
entsprechenden Zeichen der ersten Zeichenkette, das gerade
betrachtet wird, passt.
Anschaulich bedeutet dies beispielsweise, dass für jedes
Zeichen der ersten Zeichenkette 701 ein Zeichen innerhalb der
zweiten Zeichenkette 704 gesucht wird, welches mit dem
Zeichen der ersten Zeichenkette übereinstimmt oder diesem
zumindest gemäß einer vorgegebenen Ähnlichkeitsliste
ausreichend ähnlich ist.
So kann beispielsweise in einer Ähnlichkeitsliste vorgesehen
sein, dass ein Buchstabe zwar gleich ist, dieser jedoch
einmal klein und einmal groß geschrieben sein kann.
Weiterhin kann ein Zeichen der ersten Zeichenkette 701 als
einem Zeichen der zweiten Zeichenkette 704 gemäß dem
vorgegebenen Kriterium ausreichend ähnlich angesehen werden,
wenn eines der Zeichen der Umlaut des jeweiligen anderen
Zeichens ist, das heißt das Zeichen der ersten Zeichenkette
701 und das Zeichen der zweiten Zeichenkette 704, welches dem
Kriterium genügt, bilden ein "Umlautpaar" gemäß der deutschen
Sprache, beispielsweise "a-ä", "o-ö", "u-ü".
Weiterhin kann vorgesehen sein, dass zwei Zeichen dem
Kriterium genügen, wenn beide Zeichen Ziffern sind, der Wert
der Ziffer jedoch unterschiedlich ist.
Weiterhin können auch unterschiedliche Satzzeichen,
beispielsweise einmal ein Fragezeichen und ein Zeichen der
anderen Zeichenkette ein Ausrufezeichen oder auch ein Punkt
und ein Komma bzw. ein Komma und ein Strichpunkt, usw. als
Zeichen der beiden Zeichenketten 701, 704 dem Kriterium
genügen.
Weiterhin können auch unterschiedliche Klammerformen als
einander ausreichend ähnlich angesehen werden und damit dem
Kriterium genügen, beispielsweise jeweils eine runde Klammer
und eine geschweifte Klammer und/oder eine eckige Klammer.
In der Ähnlichkeitsliste ist für jedes gebildete Zeichenpaar,
welches überhaupt zulässig ist, ein Umsetzungskostenwert
gespeichert, mit dem angegeben wird, wie stark sich die
beiden Zeichen des jeweiligen Zeichenpaars voneinander
unterscheiden.
Sind die zwei ermittelten Zeichen der ersten Zeichenkette 701
bzw. der zweiten Zeichenkette 704 exakt gleich, so wird dem
entsprechenden Umsetzungskostenregister 703 der
Umsetzungskostenwert mit dem Wert "0" zugeordnet.
Die Umsetzungskosten für zwei einander zugeordnete Zeichen
können jedoch bei unterschiedlichen Buchstaben entsprechend
der gewählten Unähnlichkeit, wie er beispielsweise durch
einen Benutzer vorgegeben wird und in der Ähnlichkeitsliste
gespeichert wird, gewählt werden.
Wenn mehrere Zeichen der zweiten Zeichenkette 704 zu einem
Zeichen der ersten Zeichenkette 701 passen würden, wird die
Position der zweiten Zeichenkette 704 in das entsprechende
Zeichenregister 702 eingetragen, die zu der größten
Überlappung zweier Zeichenketten gehört, wie sie im Weiteren
noch näher erläutert wird.
Wenn die einander zugeordneten Zeichen der zwei Zeichenketten
701, 704 nicht gleich sind, werden die entsprechenden
Umsetzungskostenwerte in das Umsetzungskostenregister 703
gespeichert.
Wenn kein Zeichen der zweiten Zeichenkette zu einem Zeichen
der ersten Zeichenkette 701 gemäß dem vorgegebenen Kriterium
passt, bleiben die Werte aus der Initialisierungsphase, das
heißt der gemäß dem Ausführungsbeispiel der Wert "-1", in dem
Zeichenregister 702 bzw. der Werte "1" für das
Umsetzungskostenregister 703 gespeichert.
Fig. 4a zeigt das Buchstabenregister 702 und das
Umsetzungskostenregister 703 für den Ausdruck "Sitzplatz" als
erste Zeichenkette 704 und den Ausdruck "Plätze(sitze)" nach
erfolgter Zuordnung der Zeichen der beiden Zeichenketten 701,
704 zueinander.
Wie Fig. 4a zu entnehmen ist, ist in einem ersten
Buchstabenregister 901, welches dem Zeichen "S" des Wortes
"Sitzplatz" zugeordnet ist, der Wert "7" gespeichert, welcher
der Position des Buchstabens "s" innerhalb des Wortes
"Plätze(sitze)" als zweite Zeichenkette 704 entspricht, wie
dies in Fig. 4a mit der Abbildungslinie 902 dargestellt ist.
Da der Buchstabe "S" in dem Wort Sitzplatz groß geschrieben
ist und in dem Wort "Plätze(sitze)" klein geschrieben ist,
ist in dem ersten Zeichenregister 901 zugeordneten ersten
Umsetzungskostenregister 903 der Umsetzungskostenwert "0,5"
gespeichert.
In einem zweiten Zeichenregister 904, welches dem Buchstaben
"i" der ersten Zeichenkette 701 zugeordnet ist, ist der Wert
"8" gespeichert, da in der zweiten Zeichenkette 704 der
Buchstabe "i" an neunter Position steht.
In diesem Zusammenhang ist anzumerken, dass gemäß dem
Ausführungsbeispiel die erste Position als Position "0"
bezeichnet wird.
Da die beiden Buchstaben "i" exakt miteinander
übereinstimmen, ist in dem dem zweiten Zeichenregister 904
zugeordneten zweiten Umsetzungskostenregister 905 der Wert
"0" gespeichert.
Entsprechend sind die weiteren Zeichenregister 702 und die
weiteren Umsetzungskostenregister 703 mit den entsprechend
gemäß den durch die Abbildungslinien 902 in Fig. 4a
dargestellten Zuordnungen gespeichert.
Fig. 4b zeigt die entsprechende Vorgehensweise und den
entsprechenden gespeicherten Wert in den Zeichenregistern 702
und den Umsetzungskostenregistern 703 für den Ausdruck
"Plätze(sitze)" als erste Zeichenkette 701 und den Ausdruck
"Sitzplatz" als zweite Zeichenkette 704.
Wie Fig. 4b zu entnehmen ist, kann für den Buchstaben "e"
sowie für die Klammern in der ersten Zeichenkette 701 kein
entsprechendes Zeichen in der zweiten Zeichenkette 704
ermittelt werden, weshalb in den entsprechenden weiteren
Zeichenregistern 906 weiterhin der Initialisierungswert "-1"
gespeichert ist.
In den weiteren Zeichenregistern 906 zugeordneten weiteren
Umsetzungskostenregistern 907 bleibt weiterhin der
Initialisierungswert "1" gespeichert.
In einem weiteren Schritt werden ausgehend von den
Positionswerten, die in den Zeichenregistern 702 gespeichert
sind und den den Positionswerten zugeordneten
Umsetzungskostenwerten, die in den Umsetzungskostenregistern
703 gespeichert sind, Ähnlichkeitsfaktoren 707 ermittelt,
unter deren Verwendung ein Ähnlichkeitswert zur Beschreibung
der Ähnlichkeit der ersten Zeichenkette 701 mit der zweiten
Zeichenkette 704 beschrieben wird, wie im Weiteren näher
erläutert wird.
Gemäß diesem Ausführungsbeispiel beschreibt jeder Faktor 707
anschaulich einen semantischen Aspekt, weshalb aus
semantischen Gründen jeweils zwei miteinander zu
vergleichende Zeichenketten einander ähnlich sein können.
Jeder Faktor 707 kann einen positiven und/oder einen
negativen Einfluss auf die gesamte Ähnlichkeit aufweisen.
Es ist in diesem Zusammenhang darauf hinzuweisen, dass
grundsätzlich jeder Faktor 707, der einen Einfluss auf die
Ähnlichkeit zweier miteinander zu vergleichender
Zeichenketten haben kann, gemäß der Erfindung verwendet
werden kann.
Gemäß diesem Ausführungsbeispiel werden folgende Faktoren 707
gebildet und berücksichtigt:
- - Erster Faktor (F1): relative Größe der zwei
Zeichenketten:
Zum Beispiel (Fig. 8a)
F1 = Min(Len(Wort1), Len(Wort2))/ Max(Len(Wort1), Len(Wort2)) = 9/13 = 0,69
Je größer der "relative Unterschied", das heißt auf die Länge der ersten Zeichenkette bzw. der zweiten Zeichenkette bezogene Unterschied der Länge der zwei Zeichenketten ist, um so geringer ist die gesamte Ähnlichkeit der zwei Zeichenketten.
Gemäß dem Ausführungsbeispiel ist die Differenz der Anzahl von Zeichen, die in den Zeichenketten 701, 704 enthalten sind, 4 (13 - 9 = 4).
Somit ergibt sich ein relativer Unterschied als erster Faktor als 4/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette oder 4/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette; - - Zweiter Faktor (F2): die relative Länge der größten
Überlappung der zwei Zeichenketten:
Zum Beispiel (Figur Ba)
F2 = LongestSubsequence(Wort1, Wort2)/Min(Len(Wort1), Len(Wort2)) = 6/9 = 0,66
Eine Überlappung wird gemäß diesem Ausführungsbeispiel als fortlaufende Sequenz von positiven Nummern, das heißt positiven Positionswerten in den Zeichenregistern 702 identifiziert, da ja für den Fall, dass kein entsprechendes Zeichen in der zweiten Zeichenkette für ein Zeichen der ersten Zeichenkette 701 ermittelt werden konnte, der Initialisierungswert "-1" mit negativem Vorzeichen in dem entsprechenden Zeichenregister 701 gespeichert bleibt, wodurch eine Unterbrechung positiver Positionswerte in den Zeichenregistern 702 erzeugt würde.
Die Länge der größten Überlappung wird gemäß diesem Ausführungsbeispiel relativ zur maximalen Überlappung, das heißt zur Länge der kürzeren Zeichenkette, gebildet.
Je größer die (relative) Überlappung der zwei Zeichenketten 701, 704 ist, um so größer ist die gesamte
Ähnlichkeit, das heißt der zu ermittelnde Ähnlichkeitswert.
Gemäß diesem Ausführungsbeispiel ist die größte absolute Überlappung gleich 5 (Teilsequenz "Platz" für den Ausdruck "Sitzplatz" als erste Zeichenkette bzw. für die Teilsequenz "Plätz" für den Ausdruck "Plätze(sitze)".
Somit ergibt sich der zweite Faktor zu 5/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette und zu 5/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette. - - Dritter Faktor (F3): Anteil der fehlenden Zeichen der
ersten Zeichenkette, das heißt der Anteil der Zeichen
der ersten Zeichenkette, für die kein entsprechendes
Zeichen in der zweiten Zeichenkette ermittelt werden
konnte:
Zum Beispiel (Fig. 8a)
F3 = 1 - (NumbMissingLetters(Wort1)/Len(Wort1)) = 1
Die Anzahl der fehlenden Zeichen entspricht der Anzahl der in den Zeichenregistern 703 gespeicherten Initialisierungswerten "-1" nach erfolgter Eintragung der Zuordnungen, das heißt der Positionswerte in die Zeichenregister 702.
Je größer der Anteil der fehlenden Zeichen ist, um so geringer ist die gesamte Ähnlichkeit der beiden zu vergleichenden Zeichenketten 701, 704.
Gemäß dem Ausführungsbeispiel ist der dritte Faktor gleich 1 für den Ausdruck "Sitzplatz" als erste
Zeichenkette und gleich 4 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette. - - Vierter Faktor (F4): Unzusammenhängigkeit:
Zum Beispiel (Fig. 8a)
F4 = sqrt(1.0 - (NumbSequences(Wort1, Wort2)/Len(Wort1))) = sqrt (1.0 - 1/9) = 0,94
Die Unzusammenhängigkeit entspricht der Anzahl der Teilsequenzen von Zeichen zwischen den zwei Zeichenketten 701, 704. Der Anfang einer Teilsequenz in einem Zeichenregister 702 kann als positiver Wert, dessen Wert, der nicht um mehr als um einen Wert "1" größer ist als der in dem für das vorangegangene Zeichen der ersten Zeichenkette zugeordneten Zeichenregister 702 ist, ermittelt werden.
Je größer die Anzahl von Teilsequenzen ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 701, 704.
Gemäß dem Ausführungsbeispiel weist der vierte Faktor für beide Beispiele den Wert 2 auf. - - Fünfter Faktor (F5): Reihenfolge der Teilsequenzen:
Zum Beispiel (Fig. 8a)
F5 = sqrt(1.0 - (NumbReversals(wort1, Wort2) /Len(Wort1))) = sqrt(1.0 - 1/9) = 0,94
Der fünfte Faktor F5 beschreibt, wie konsequent die zweite Zeichenkette die Zeichenreihenfolge der ersten Zeichenkette einhält, das heißt dieser entspricht.
Ein Wechsel in der Reihenfolge wird in den Zeichenregistern 702 als positiver Wert identifiziert, der kleiner ist als der letzte positive Wert, der in einem vorangegangenen, das heißt einem vorangegangenen Zeichen innerhalb der ersten Zeichenkette zugeordneten Zeichenregister 702 gespeicherten Wert ist.
Initialisierungswerte mit dem Wert "-1", die in dem Zeichenregister 702 noch gespeichert sind, die zwischen den zwei positiven Werten liegen, werden im Rahmen der Ermittlung des fünften Faktors gemäß diesem Ausführungsbeispiel ignoriert.
Je größer die Anzahl von "Reihenfolgeumkehrungen" ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 701, 704. - - Sechster Faktor (F6): Der erste Buchstabe beider
Zeichenketten 701, 704 ist gleich:
Zum Beispiel (Fig. 8a)
F6 = 1,5 wenn Erste(Wort1) == Erste(Wort2) sonst 1
Wenn die ersten Zeichen der zwei Zeichenketten 701, 704 einander zugeordnet sind, das heißt wenn der Wert des ersten Buchstabe des Zeichenregisters 901 den Wert "0" aufweist, wird die gesamte Ähnlichkeit, das heißt der Ähnlichkeitswert erhöht. - - Siebter Faktor (F7): Umsetzungskosten:
Zum Beispiel
F7 = 1 - (Summe(Umsetzungskostenregister)/Len(Wort1) = 1 - (1.5/9) = 0,83
Der siebte Faktor wird aus den Werten, die in den Umsetzungskostenregistern 703, das heißt den Umsetzungskostenwerten, berechnet.
Je größer die Umsetzungskostenwerte sind, um so kleiner ist die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten. - - Achter Faktor (F8): Eine Zeichenkette ist Teilkette der
anderen Zeichenkette:
Zum Beispiel (Fig. 8a)
wenn
LongestSubsequence(Wort1, Wort2) == Len(Wort1) F8 =
Sqrt(F1)
sonst
F8 = F1 = 9/13 = 0,69
Der achte Faktor bedeutet anschaulich, dass die Länge der größten Überlappung (vgl. zweiter Faktor) gleich der Länge der kürzeren Zeichenkette ist.
In diesem Fall wird die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten erhöht.
Die oben beschriebenen Faktoren 707 werden berücksichtigt, um
einen Ähnlichkeitswert A 708 zu ermitteln.
Der Ähnlichkeitswert A 708 wird gemäß dem vorliegenden
Ausführungsbeispiel gemäß folgender Vorschrift ermittelt:
Zum Beispiel (Fig. 8a)
Zum Beispiel (Fig. 8a)
Ähnlichkeit A (Wort1, Wort2) =
= F2.F3.F4.F5.F6.F7.F8 =
= 0,66.1.0,94.0,94.1.0,83.0,69 = 0,33
Es ist in diesem Zusammenhang anzumerken, dass die einzelnen
Faktoren 707 grundsätzlich beliebig gewichtet werden können,
abhängig von der jeweiligen Anwendung.
Auch kann grundsätzlich jede geeignete Funktion verwendet
werden, um den Ähnlichkeitswert A 708 zu bilden.
Gemäß Vorschrift (1) weist der gebildete Ähnlichkeitswert A
708 einen absoluten Wert auf, der insbesondere im Vergleich
mit einem weiteren Ähnlichkeitswert A 708 den Aussagegehalt
hat, dass die jeweiligen Zeichenketten dann einander
ähnlicher sind als andere Zeichenketten, für die der weitere
Ähnlichkeitswert A 708 gebildet wurde, wenn ein
Ähnlichkeitswert A 708 größer ist als ein weiterer
Ähnlichkeitswert.
Es ist jedoch aufgrund des Ähnlichkeitswerts A 708 noch keine
statistische Aussage darüber möglich, wie ähnlich die beiden
verglichenen Zeichenketten einander tatsächlich sind.
Um einen für einen Benutzer anschaulicheren Wert in Form
einer Übereinstimmungswahrscheinlichkeit darzustellen, wird
eine Konvertierungsfunktionenschar 1001 verwendet, wie sie in
Fig. 10 dargestellt ist.
Mittels der Konvertierungsfunktionenschar 1001 wird jeweils
der ermittelte Ähnlichkeitswert 1002 in einen
Wahrscheinlichkeitswert 1003 umgewandelt (Block 708 in
Fig. 7).
Gemäß diesem Ausführungsbeispiel sind die erzeugten
Wahrscheinlichkeitswerte in folgendem Sinne zu
interpretieren:
- - Wahrscheinlichkeitswert = 0.9000 (1003):
1 von 10 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - Wahrscheinlichkeitswert = 0.9900 (1003):
1 von 100 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - Wahrscheinlichkeitswert = 0.9990 (1003):
1 von 1000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - Wahrscheinlichkeitswert = 0.9999 (1003):
1 von 10000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - usw.
Wie in Fig. 10 dargestellt ist, wird die
Konvertierungsfunktionenschar 1001 gebildet aus einer Schar
unterschiedlicher Konvertierungsfunktionen 1004, 1005, 1006,
1007, 1008, die eine unterschiedliche Abbildungsfunktion
darstellen abhängig von der Länge der jeweiligen Zeichenkette
als Scharparameter.
Die Konvertierungsfunktionenschar 1001 kann bei Existenz
einer Vielzahl technischer elektronischer Dokumente, die in
dem Speicher 606 des Computers 609 gespeichert sind, mittels
statistischer Analysen approximiert werden.
Eine Vielzahl von Zeichenkettenpaaren werden in diesem Fall
zufällig aus den technischen Dokumenten ausgewählt.
Die Ähnlichkeit jedes Zeichenkettenpaars wird berechnet und
die Frequenz jedes Ähnlichkeitswerts A 708 wird gespeichert.
Verschiedene Zeichenkettenlängen können verschiedene
Konvertierungsfunktionen 1004, 1005, 1006, 1007, 1008
benötigen, weshalb die Vielzahl von Konvertierungsfunktionen
1004, 1005, 1006, 1007, 508 abhängig von der
Zeichenkettenlänge als Scharparameter eingesetzt werden.
Die Konvertierungsfunktionen 1004, 1005, 1006, 1007, 1008
können auch sprachenabhängig, das heißt für die Sprache
Deutsch, Englisch, Französisch usw. unterschiedlich
ausgestaltet und der entsprechend eingesetzten Sprache
angepasst werden.
Gemäß dem vorliegenden Ausführungsbeispiel wird folgende
Konvertierungsfunktionenschar 1001 eingesetzt:
Wahrscheinlichkeit = K(Len(Wort1)) +
+ ((1 - K(Len(Wort1)).exp(Ähnlichkeit, P(Len(Wort1))),
wobei K und P über statistische Mittel für eine bestimmte
Wortlänge vorgegeben sind.
Es hat sich ein Wahrscheinlichkeitswert von ≧ 0.999 als eine
geeignete Grenze bei dem Einsatz des Verfahrens im Rahmen der
Texterkennung für die tatsächliche Übereinstimmung der beiden
Zeichenketten erwiesen.
Dies entspricht gemäß dem Ausführungsbeispiel einem
Ähnlichkeitswert A 708 von ungefähr 0.4.
Gemäß einer alternativen Ausgestaltung der Erfindung ist der
Erkenntnis Rechnung getragen worden, dass in vielen
natürlichen Sprachen gewisse Sequenzen von Zeichen,
insbesondere von Buchstaben, häufig vorkommen, die somit bei
einem spezifischen Vergleich zweier Zeichenketten
hinsichtlich ihrer spezifischen Ähnlichkeit nur einen
geringen Informationsgehalt aufweisen.
Beispiele dafür sind Wortendungen wie "ung" und "keit" in der
deutschen Sprache oder auch Buchstabensequenzen wie "ment",
"sion" und "tion" in der englischen Sprache.
Solche Buchstabensequenzen können für die
Wortähnlichkeitsfunktionen problematisch sein, da in diesem
Fall nur oberflächliche Merkmale betrachtet werden, weil sie
einen hohen Ähnlichkeitswert für Wortpaare, die keine tiefere
Ähnlichkeit zueinander aufweisen, verursachen können.
Aufgrund dieser Erkenntnis ist es gemäß einer Ausgestaltung
der Erfindung vorgesehen, solche Buchstabensequenzen,
beispielsweise mittels statistischer Analysen
(Häufigkeitsanalyse) in den gespeicherten technischen
Dokumenten zu ermitteln und für die ermittelten,
beispielsweise für die am häufigsten vorkommenden
Buchstabenkombinationen diese als einzelnes logisches Zeichen
zu betrachten und innerhalb des Verfahrens zum Bilden der
Ähnlichkeitswerte und der entsprechenden Register zu
berücksichtigen.
In diesem Fall wird die Länge der entsprechenden
Zeichenketten und die Anzahl der verwendeten Zeichenregister
702 und Umsetzungskostenregister 703 entsprechend angepasst.
Fig. 11 zeigt den Einsatz des oben beschriebenen Verfahrens
für eine verbesserte Textsuche in technischen elektronischen
Dokumenten 1101, aus denen die Wörter 1102 des Dokuments 1101
ermittelt worden sind.
Bei diesem Verfahren wird für einen eingegebenen Suchbegriff
1103 für jedes Wort 1102 des Dokuments 1101 (Schritt 1104)
jeweils eine Übereinstimmungswahrscheinlichkeit gemäß dem
oben beschriebenen Verfahren ermittelt (Schritt 1105) und es
wird überprüft (Überprüfungsschritt 1106), ob der ermittelte
Übereinstimmungswahrscheinlichkeitswert einen vorgegebenen
Schwellenwert 1107, gemäß diesem Ausführungsbeispiel einem
Schwellenwert einer Wahrscheinlichkeit von 0.999
überschreitet.
Ist dies der Fall, so wird das entsprechende Wort 1102 des
technischen Dokuments 1101 einer Suchbegriffsdatenbank 1108
hinzugefügt (Schritt 1109), das heißt in einem anschließenden
Textsuchverfahren (Schritt 1110) wird dieses Wort 1102 des
Dokuments ebenfalls als erste Zeichenkette berücksichtigt.
Ist der Schwellenwert jedoch nicht überschritten, so wird das
entsprechende Wort 1102 des Dokuments der
Suchbegriffsdatenbank 1108 nicht hinzugefügt.
Im Weiteren wird anhand des in Fig. 3 dargestellten
Ablaufdiagramms 300 das Vorgehen zum Ermitteln der Relationen
der Thesauruswörter für das jeweils betrachtete elektronische
Dokument beschrieben (Block 103).
Die Vorgehensweise zum Ermitteln der Thesaurusrelationen
erfolgt statistisch. Es wird bestimmt, welche Wort gemeinsam
auftreten, ohne dass dies rein zufällig ist.
Um den Einfluss der Statistik zu reduzieren, wird das
elektronische Dokument jeweils in Segmente, im Weiteren als
Dokumentensegmente bezeichnet, unterteilt, die sich mit
unterschiedlichen Teilthemen befassen (Schritt 301).
Auch die Aufteilung, das heißt die Segmentierung des
elektronischen Dokuments in Dokumentensegmente erfolgt gemäß
dem in [3] beschriebenen Verfahren.
Alternativ kann jedoch auch eine manuelle Segmentierung des
jeweiligen elektronischen Dokuments erfolgen.
Für die einzelnen Dokumentensegmente wird anschließend
untersucht (Block 302) welche Wörter des elektronischen
Thesaurus 500 in dem jeweiligen Dokumentensegment häufiger
vorkommt, als dies aufgrund des gesamten elektronischen
Dokuments statistisch erwartet werden kann.
Dieser Schritt beruht auf der Annahme, dass die Begriffe, das
heißt die Wörter in diesem Fall in einer besonderen Beziehung
zu dem jeweiligen Teilthema des Dokumentensegments stehen und
somit auch in einer Beziehung, das heißt Relation zueinander,
welche dann als Relation zwischen den Wörtern in dem
elektronischen Thesaurus 500 betrachtet werden.
Wenn Wörter in mehr als einem der Dokumentensegmente in
dieser Weise gemeinsam auftreten, erhöht sich sogar die
Relevanz der jeweiligen Relation zwischen den beiden Wörtern.
Wie oben beschrieben wurde, werden Wortvarianten
berücksichtigt. Es wird somit für jedes Dokumentensegment
(Block 302) und für jedes Wort des elektronischen Thesaurus
500, wie es in dem vorangegangenen Schritt (Block 102)
ermittelt worden ist, ermittelt, ob das jeweilige Wort eine
Auftrittshäufigkeit in dem jeweiligen elektronischen Dokument
aufweist, welche größer ist als ein vorgegebener Häufigkeits-
Schwellenwert (Schritt 304).
Ist dies der Fall, so wird das jeweilige Wort dem
entsprechenden Satz von Wörtern, zwischen denen eine Relation
in einem weiteren Schritt erzeugt wird, hinzugefügt
(Schritt 305).
Ist dies nicht der Fall, so wird unmittelbar zu einem
weiteren Prüfschritt (Schritt 306) übergegangen, ohne dass
das jeweilige Wort dem Satz von Wörtern hinzufügt wird.
In dem weiteren Prüfschritt (Schritt 306) wird überprüft, ob
alle Wörter des elektronischen Thesaurus 500 für das
jeweilige Dokumentensegment schon bearbeitet worden sind.
Ist dies nicht der Fall, so wird die aus den
Verfahrensschritten 303, 304 und eventuell 305 bestehende
Iterationsschleife erneut durchlaufen für ein weiteres Wort
des elektronischen Thesaurus, welches noch nicht
berücksichtigt worden ist.
Sind alle Wörter in dem elektronischen Thesaurus 500
berücksichtigt worden, so wird in einem weiteren Schritt
(Schritt 307) überprüft, ob der gebildete Satz von Wörtern
mehr als ein Wort enthält.
Ist dies der Fall, so wird für die in dem jeweiligen Satz
enthaltenen Wörter jeweils eine Relation zwischen den
Wörtern, gemäß diesem Ausführungsbeispiel eine
Vollverknüpfung, das heißt eine Relation zwischen jedem der
in dem Satz von Wörtern enthaltenen Wörter, erzeugt und
diesen Wörtern, das heißt anschaulich den Wortpaaren,
zugeordnet (Schritt 308).
Besteht der Satz von Wörtern jedoch nur aus einem Wort, so
wird direkt in einen darauffolgenden Prüfschritt
(Schritt 309) übergegangen, in dem überprüft wird, ob alle
Dokumentensegmente des elektronischen Dokuments bearbeitet
worden sind.
Ist dies nicht der Fall, so wird ein nächstes, noch nicht
bearbeitetes Dokumentensegment ausgewählt und das Verfahren
der Verfahrensschritte 302, 304, 305, 306, 307, 308, 309 wird
erneut durchgeführt.
Sind alle Dokumentensegmente bearbeitet, so ist das Verfahren
zum Ermitteln der Relationen zwischen den Wörtern des
elektronischen Thesaurus 500 beendet (Block 310).
Im Rahmen des in Fig. 3 dargestellten Vorgehens wird nicht nur
der jeweilige Repräsentant einer Wortgruppe berücksichtigt.
Das Verfahren wird für alle Wörter des elektronischen
Thesaurus 500 durchgeführt.
Die Wörter, für die die in Schritt 304 dargestellte Bedingung
erfüllt ist, werden segmentweise in Zwischenmengen in dem
Speicher des Computers 609 gespeichert. Diese Zwischenmengen
bilden die Grundlage für die im Weiteren erläuterten
eigentlichen Relationen des elektronischen Thesaurus 500.
Wie in Fig. 4 in einem Ablaufdiagramm 400 gezeigt ist, werden
für alle Wörter in einem Satz von Wörtern (Block 401)
überprüft, ob das jeweilige Wort ein Repräsentant,
anschaulich eine "ausgezeichnete" Wortvariante,
beispielsweise ein Wortstamm, ist.
Der Begriff "Wortstamm" ist in diesem Zusammenhang nicht
notwendigerweise im linguistischen Sinne zu interpretieren,
das heißt es muss sich bei dem Wortstamm, das heißt bei dem
Repräsentanten nicht um einen echten Wortstamm oder eine
Wortgrundform handeln.
Die ausgezeichnete Wortvariante kann auch mit einem eher
groben Algorithmus, das heißt mit einem eher heuristischen
ungenauen Algorithmus aus der Menge aller Varianten eines
Wortes, das heißt der Wörter einer Wortgruppe, ermittelt
werden, beispielsweise gemäß der anschaulichen
Vorgehensweise, dass die kürzeste Wortvariante auszuwählen
ist, die nicht mit einem Satzzeichen endet, länger als eine
vorgegebene oder aus der Länge des Originalworts zu
berechnende Mindestlänge ist und im Alphabet vor allen gleich
langen Wortvarianten steht.
Es wird somit in dem Prüfschritt (Schritt 402) überprüft, ob
das Wort ein Repräsentant einer Wortgruppe ist.
Ist dies der Fall, so wird das Wort als Repräsentant
ausgewählt (Schritt 403).
Ist dies nicht der Fall, so wird für das jeweilige Wort
überprüft, ob es einer Wortgruppe mit einem entsprechenden
Repräsentanten zugeordnet ist (Prüfschritt 404).
Ist dies der Fall, so wird aus der entsprechenden Wortgruppe,
der das Wort zugeordnet ist, der Repräsentant ausgewählt
(Schritt 403).
Ist dies jedoch nicht der Fall, so wird ein Repräsentant
ermittelt (Schritt 405) und es wird eine
Ähnlichkeitsbeziehung zwischen dem entsprechenden Wort und
dem Repräsentanten erzeugt und diesen beiden zugeordnet
(Schritt 406).
Nach der Auswahl des Repräsentanten (Schritt 403) wird in
einem weiteren Prüfschritt (Schritt 407) überprüft, ob alle
Wörter in dem Satz schon bearbeitet worden sind.
Ist dies nicht der Fall, so wird ein weiteres Wort aus dem
betrachteten Satz ausgewählt und das oben beschriebene
Verfahren mit den Verfahrensschritten 401, 402, 403, 404,
405, 406 wird erneut durchgeführt.
Sind jedoch alle Wörter in dem Satz schon bearbeitet worden,
so wird für alle ausgewählten Repräsentanten (Block 408) eine
Kombination der entsprechenden Relationen zwischen den
Repräsentanten ermittelt und es wird eine Relationsstruktur
erzeugt, die in dem elektronischen Thesaurus verwendet wird
Schritt 409).
Es werden somit die auf die oben beschriebene Weise nach und
nach ermittelten ausgezeichneten Wortvarianten aller Wörter
der Zwischenmenge zu den Proximitätsrelationen kombiniert und
eingetragen, bzw. wenn die gerade betrachtete Relation schon
in dem Thesaurus enthalten ist, da sie schon für ein anderes
Dokumentensegment ermittelt wurde, wird die Relevanz, die der
jeweiligen Relation zugeordnet ist, erhöht (Schritt 410).
In einem weiteren Prüfschritt (Schritt 411) wird überprüft,
ob alle Repräsentanten auf die oben beschriebene Weise schon
bearbeitet worden sind.
Ist dies nicht der Fall, wird ein weiterer Repräsentant
ausgewählt und die Verfahrensschritte 408, 409, 410, 411
werden erneut für den neu ausgewählten Repräsentanten
durchgeführt.
Sind alle Repräsentanten jedoch bearbeitet, so wird der
Verfahrensschritt des Einfügens von Relationen in den
elektronischen Thesaurus 500 beendet (Block 412).
Die in den Verfahrensschritten 101, 102, 103, 104 jeweils für
ein elektronisches Dokument ermittelten elektronischen
Thesauri werden zu einem Gesamt-Thesaurus in einem weiteren
Schritt (Schritt 105) zusammengefasst.
Die Zusammenfassung der elektronischen Thesauri zu einem
Gesamt-Thesaurus kann durch unterschiedliche
Mengenoperationen erfolgen, beispielsweise durch Schneiden,
durch Vereinigen der entsprechenden Wörter in den jeweiligen
elektronischen Thesauri oder durch Bilden einer neuen Gesamt-
Burstiness pro Wort, beispielsweise als arithmetischen
Mittelwert, der dann entsprechend zu berechnen ist.
Entsprechend wird auch für die Relationen zwischen den
Wörtern in den jeweiligen elektronischen Thesauri
vorgegangen. Bei den Relationen sollte aber zusätzlich
sichergestellt sein, dass die an den Relationen beteiligten
Wörter auch noch in der Menge der Wörter des neuen
elektronischen Thesaurus enthalten sein sollen.
Auf diese Weise kommt man zu einem elektronischen Gesamt-
Thesaurus, der für das gesamte Projekt sinnvoll und damit
sehr aussagekräftig und verlässlich ist und nicht nur für
einzelne elektronische Dokumente.
Um die Wartungsfreundlichkeit, das heißt die Anpassbarkeit
und die Erweiterbarkeit der Relationen in dem auf die oben
beschriebene Weise ermittelten elektronischen Thesaurus
weiter zu verbessern und um bei der Benutzung des
elektronischen Thesaurus Zeit und Speicherplatz einsparen zu
können, sollten so wenige wie möglich aber so viele wie nötig
Relationen gespeichert werden.
Aus diesem Grund wird die Speicherstruktur der Thesaurus-
Relationen, wie sie in Fig. 5 dargestellt ist, vorgeschlagen.
Proximitätsrelationen gehen nur von einer ausgezeichneten
Wortvariante, das heißt dem Repräsentanten einer Wortgruppe,
aus. Alle anderen Wortvarianten der entsprechenden Wortgruppe
können dann über den Zwischenschritt der Ähnlichkeitsrelation
an der entsprechenden Proximitätsrelation Teil haben.
Dass dadurch auch Wortvarianten zueinander in Beziehung
gesetzt werden, deren Proximität sich aus den ursprünglichen
Dokumenten nicht ableiten lässt, ist bei entsprechenden
Wortähnlichkeits-Erkennungsverfahren, wie oben beschrieben,
ein positiver Nebeneffekt.
Das oben beschriebene Verfahren lässt sich in beliebiger
Weise anwendungsabhängig parametrisieren.
Mögliche Parameter, die beliebig anwendungsabhängig angepasst
werden können sind beispielsweise der Einfluss der Häufigkeit
des jeweiligen Wortes auf seine Burstiness, der Einfluss der
Verteilung des Wortes auf seine Burstiness, die zu
erreichende Burstiness-Grenze etc..
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] WO 97/34242;
[2] R. Rosenfeld, A maximum entropy approach to adaptive
statistical language modeling, erhältlich im Internet im Februar 1999 unter der URL- Adresse: http:/ /www.cs.cmu.edu./~roni/me-csl-revised.ps;
[3] K. Richmond, A. Smith, E. Amitay, Detecting subject boundaries within text: a language independent statistical approach, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing, S. 47-54, 1997.
[1] WO 97/34242;
[2] R. Rosenfeld, A maximum entropy approach to adaptive
statistical language modeling, erhältlich im Internet im Februar 1999 unter der URL- Adresse: http:/ /www.cs.cmu.edu./~roni/me-csl-revised.ps;
[3] K. Richmond, A. Smith, E. Amitay, Detecting subject boundaries within text: a language independent statistical approach, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing, S. 47-54, 1997.
Claims (10)
1. Anordnung zum Ermitteln eines elektronischen Thesaurus aus
mindestens einem elektronischen Dokument,
mit einem Prozessor, der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von den ermittelten Burstiness-Werten der Wörter wird der elektronische Thesaurus ermittelt.
mit einem Prozessor, der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von den ermittelten Burstiness-Werten der Wörter wird der elektronische Thesaurus ermittelt.
2. Anordnung nach Anspruch 1,
bei der der Prozessor derart eingerichtet ist, dass
für jedes Wort in dem elektronischen Dokument jeweils ein
Burstiness-Wert ermittelt wird.
3. Anordnung nach Anspruch 1 oder 2,
bei der der Prozessor derart eingerichtet ist, dass
einander gemäß einem vorgegebenen Ähnlichkeitskriterium ausreichend einander ähnliche Wörter zu einer Wortgruppe zusammen gruppiert werden, denen gemeinsam ein Wortgruppen-Burstiness-Wert zugeordnet wird, und
abhängig von den ermittelten Wortgruppen-Burstiness- Werten der Wortgruppen wird der elektronische Thesaurus ermittelt.
einander gemäß einem vorgegebenen Ähnlichkeitskriterium ausreichend einander ähnliche Wörter zu einer Wortgruppe zusammen gruppiert werden, denen gemeinsam ein Wortgruppen-Burstiness-Wert zugeordnet wird, und
abhängig von den ermittelten Wortgruppen-Burstiness- Werten der Wortgruppen wird der elektronische Thesaurus ermittelt.
4. Anordnung nach einem der Ansprüche 1 bis 3,
bei der der Prozessor derart eingerichtet ist, dass
abhängig von den Burstiness-Werten zwischen einzelnen berücksichtigten Wörtern Relationen ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen bestimmt wird.
abhängig von den Burstiness-Werten zwischen einzelnen berücksichtigten Wörtern Relationen ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen bestimmt wird.
5. Anordnung nach Anspruch 4,
bei der der Prozessor derart eingerichtet ist, dass die Relationen auf folgende Weise ermittelt werden:
es werden diejenigen Wörter ermittelt, deren Auftrittshäufigkeit größer ist als ein vorgegebener Häufigkeits-Schwellenwert, und
zwischen den ermittelten Wörtern wird eine Relation erzeugt,
bei der der Prozessor derart eingerichtet ist, dass die Relationen auf folgende Weise ermittelt werden:
es werden diejenigen Wörter ermittelt, deren Auftrittshäufigkeit größer ist als ein vorgegebener Häufigkeits-Schwellenwert, und
zwischen den ermittelten Wörtern wird eine Relation erzeugt,
6. Anordnung nach einem der Ansprüche 3 bis 5,
bei der der Prozessor derart eingerichtet ist, dass
jeder Wortgruppe mindestens ein Repräsentant zugeordnet wird,
Relationen zwischen den jeweiligen Repräsentanten ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen bestimmt wird.
bei der der Prozessor derart eingerichtet ist, dass
jeder Wortgruppe mindestens ein Repräsentant zugeordnet wird,
Relationen zwischen den jeweiligen Repräsentanten ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen bestimmt wird.
7. Anordnung nach einem der Ansprüche 1 bis 6,
bei der der Prozessor derart eingerichtet ist, dass
das elektronische Dokument abhängig von den Burstiness- Werten in mehrere Dokumentensegmente segmentiert wird,
abhängig von den Burstiness-Werten zwischen einzelnen berücksichtigten Wörtern Relationen von Wörtern innerhalb der einzelnen Dokumentensegmente ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen aus den einzelnen Dokumentensegmente bestimmt wird.
bei der der Prozessor derart eingerichtet ist, dass
das elektronische Dokument abhängig von den Burstiness- Werten in mehrere Dokumentensegmente segmentiert wird,
abhängig von den Burstiness-Werten zwischen einzelnen berücksichtigten Wörtern Relationen von Wörtern innerhalb der einzelnen Dokumentensegmente ermittelt werden, und
der elektronische Thesaurus unter Berücksichtigung der ermittelten Relationen aus den einzelnen Dokumentensegmente bestimmt wird.
8. Verfahren zum rechnergestützten Ermitteln eines
elektronischen Thesaurus aus mindestens einem elektronischen
Dokument,
bei dem für zumindest einen Teil der Wörter des elektronischen Dokuments jeweils ein Burstiness-Wert ermittelt wird, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
bei dem abhängig von dem ermittelten Burstiness-Wert der Wörter der elektronische Thesaurus ermittelt wird.
bei dem für zumindest einen Teil der Wörter des elektronischen Dokuments jeweils ein Burstiness-Wert ermittelt wird, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
bei dem abhängig von dem ermittelten Burstiness-Wert der Wörter der elektronische Thesaurus ermittelt wird.
9. Computerlesbares Speichermedium, in dem ein
Computerprogramm zum Ermitteln eines elektronischen Thesaurus
aus mindestens einem elektronischen Dokument gespeichert ist,
das, wenn es von einem Prozessor ausgeführt wird, folgende
Verfahrensschritte aufweist:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
10. Computerprogramm-Element zum Ermitteln eines
elektronischen Thesaurus aus mindestens einem elektronischen
Dokument, das, wenn es von einem Prozessor ausgeführt wird,
folgende Verfahrensschritte aufweist:
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
für zumindest einen Teil der Wörter des elektronischen Dokuments wird jeweils ein Burstiness-Wert ermittelt, der abhängig ist von der Auftrittshäufigkeit des jeweiligen Wortes in dem elektronischen Dokument und der Verteilung, in der das jeweilige Wort in dem elektronischen Dokument auftritt, und
abhängig von dem ermittelten Burstiness-Wert der Wörter wird der elektronische Thesaurus ermittelt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10112572A DE10112572A1 (de) | 2001-03-15 | 2001-03-15 | Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10112572A DE10112572A1 (de) | 2001-03-15 | 2001-03-15 | Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10112572A1 true DE10112572A1 (de) | 2002-09-26 |
Family
ID=7677635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10112572A Withdrawn DE10112572A1 (de) | 2001-03-15 | 2001-03-15 | Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10112572A1 (de) |
-
2001
- 2001-03-15 DE DE10112572A patent/DE10112572A1/de not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
LATINEN, Thimo: Automatic indexing on approach using an index term corpus and combining linguis- tic and statistical methods. Academic dissertationUniversity of Helsinki, 11. December 2000 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60029732T2 (de) | Phrasenübersetzungsverfahren und -system | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE69530816T2 (de) | Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis | |
DE60304331T2 (de) | Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache | |
DE4015905C2 (de) | Sprachanalyseeinrichtung, -verfahren und -programm | |
DE112007000053T5 (de) | System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung | |
DE102013003055A1 (de) | Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache | |
WO2015113578A1 (de) | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text | |
DE602005002835T2 (de) | Verfahren zur Identifizierung von redundantem Text in elektronischen Dokumenten | |
DE112018006345T5 (de) | Abrufen von unterstützenden belegen für komplexe antworten | |
DE112020005268T5 (de) | Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache | |
DE112010004914B4 (de) | Indexieren von Dokumenten | |
DE112007000051T5 (de) | Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung | |
DE19849855C1 (de) | Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem | |
DE112020003767T5 (de) | Erzeugen eines ausführbaren verfahrens aus einer textbeschreibung, die in einer natürlichen sprache geschrieben ist | |
EP2601594A1 (de) | Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format | |
DE10112587A1 (de) | Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element | |
DE112021006602T5 (de) | Verfeinern von abfrage-erzeugungsmustern | |
EP1412875B1 (de) | Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit | |
WO2003054727A1 (de) | Kategorisierungssystem für datenobjekte und verfahren zum prüfen der konsistenz von zuordnungen von datenobjekten zu kategorien | |
DE10112572A1 (de) | Anordnung und Verfahren zum Ermitteln eines elektronischen Thesaurus aus mindestens einem elektronischen Dokument, Computerlesbares Speichermedium und Computerprogramm-Element | |
EP2856344A1 (de) | Erzeugung von anfragen an ein datenverarbeitendes system | |
DE112019006523T5 (de) | Satzstrukturvektorisierungsvorrichtung, satzstrukturvektorisierungsverfahren und satzstrukturvektorisierungsprogramm | |
EP2682866B1 (de) | Verfahren zur Umsetzung von Datenformaten | |
DE10112571A1 (de) | Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8130 | Withdrawal |