DE10112571A1 - Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente - Google Patents
Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-ElementeInfo
- Publication number
- DE10112571A1 DE10112571A1 DE10112571A DE10112571A DE10112571A1 DE 10112571 A1 DE10112571 A1 DE 10112571A1 DE 10112571 A DE10112571 A DE 10112571A DE 10112571 A DE10112571 A DE 10112571A DE 10112571 A1 DE10112571 A1 DE 10112571A1
- Authority
- DE
- Germany
- Prior art keywords
- terms
- term
- basic
- determined
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
Aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt, wobei jeweils ein Zwischenbegriff aus mehreren Basisbegriffen gebildet wird. Jeder Zwischenbegriff enthält zumindest einen Teil eines Basisbegriffs. Die Begriffs-Vergleichsstruktur wird aus den ermittelten Zwischenbegriffen gebildet.
Description
Die Erfindung betrifft eine Vorrichtung und ein Verfahren zum
Ermitteln einer Begriffs-Vergleichsstruktur, einer
Vorrichtung und ein Verfahren zum Ermitteln von Begriffen in
einem elektronischen Dokument sowie Computerlesbare
Speichermedien und Computerprogramm-Elemente
Insbesondere bei der Planung und Durchführung eines großen
Industrieprojekts, beispielsweise bei der Entwicklung und dem
Bau einer neuen großen Industrieanlage oder eines neuen
Kraftwerks, beispielsweise eines Gas-Turbinen-Kraftwerks oder
eines Kernkraftwerks, eines neuen Verkehrssystems oder
ähnlichem sind eine große Anzahl von Information in mehreren
technischen Dokumenten zu berücksichtigen.
Diese technischen Dokumente sind beispielsweise Lastenhefte,
Pflichtenhefte, Produktbeschreibungen, Verträge, usw.
Die technischen Dokumente sind von einer Vielzahl
unterschiedlicher Experten für unterschiedliche
Spezialgebiete zu analysieren und zu erfassen.
Für die Experten besteht jedoch ein erhebliches Problem
darin, eine spezifische gewünschte Information innerhalb der
großen Anzahl technischer Dokumente zu finden.
Um dieses Problem zu mindern ist es bekannt, die technischen
Dokumente mittels eines Scanners elektronisch zu erfassen und
mittels eines Zeichenerkennungs-Verfahrens (Optical Character
Recognition, OCR) das elektronisch erfasste Dokumente jeweils
zu analysieren und den jeweiligen Inhalt des Dokuments, das
heißt die einzelnen Zeichenketten, d. h. Wörter und numerische
Zeichenketten, innerhalb des Dokuments zu erkennen.
Ist die Information mittels eines OCR-Verfahrens umgesetzt
und gespeichert, kann beispielsweise mittels bekannter
rechnergestützter Suchverfahren gewünschte Information durch
Eingabe von Suchbegriffen in den gespeicherten elektronischen
Dokumenten gesucht werden.
Die bekannten Standard-Suchverfahren erlauben es einem
Benutzer, eine Suchanfrage als eine Liste eines oder mehrerer
Suchbegriffe zu formulieren und in einen Computer einzugeben.
Nach Eingabe der Suchbegriffe wird das Suchverfahren unter
Verwendung der Suchbegriffe als Suchparameter durchgeführt,
d. h. die gespeicherten technischen Dokumente werden
analysiert und es werden die gesuchten Begriffe innerhalb der
technischen Dokumente ermittelt. Dem Benutzer werden die
ermittelten Positionen, an denen die Begriffe innerhalb der
technische Dokumente ermittelt worden sind, vorzugsweise
graphisch dargestellt.
Bei den bekannten Begriffen im Suchverfahren ist es üblich,
dass eine genaue Übereinstimmung der jeweiligen Suchbegriffe
mit den ermittelten Begriffen in den technischen Dokumenten
erforderlich ist, damit ein entsprechender Begriff in einem
technischen Dokument als dem Suchbegriff entsprechend dem
Benutzer ausgegeben wird.
Aus dem Erfordernis der exakten Übereinstimmung resultiert
jedoch die Gefahr, dass manche relevanten Teile der
elektronischen Dokumente nicht durch das Suchverfahren
ermittelt werden, weil nur eine Variante des ursprünglich
eingegebenen Suchbegriffs in dem jeweiligen technischen
Dokument zu finden ist.
Im Allgemeinen können Begriffsvarianten aus unterschiedlichen
Gründen entstehen, beispielsweise
- - durch menschliche Fehler, das heißt Tippfehler oder auch Buchstabierfehler (beispielsweise Buchstabendreher),
- - durch Fehler bei der optischen Zeichenerkennung, das heißt im OCR-Verfahren, oder
- - aus linguistischen Gründen, das heißt durch Bilden des Plurals eines Begriffs, durch Verbvarianten, durch Wortzusammensetzungen und Wortneubildungen, usw.
Dieses Problem wird insbesondere bei technischen
Beschreibungen noch wesentlich erschwert, da viele
domänenspezifische bzw. anwendungsspezifische Begriffe,
Komponentennamen usw. verwendet werden, die in allgemeinen
Wörterbüchern üblicherweise nicht zu finden sind und deshalb
insbesondere bei Einsatz eines OCR-Verfahrens unter
Verwendung allgemeiner elektronischer Lexika nicht erkannt
werden können.
Um die Suche nach gewünschter Information innerhalb einer
Vielzahl technischer Dokumente zuverlässiger zu gestalten,
das heißt um die Wahrscheinlichkeit dafür zu minimieren, dass
ein wichtiger Textbestandteil innerhalb der technischen
elektronischen Dokumente nicht ermittelt wird, ist somit ein
Verfahren erforderlich, welches auch unterschiedliche, das
heißt eine Vielzahl von Varianten eines Suchbegriffs
ermitteln kann.
Ein solches Verfahren sollte generisch sein.
Insbesondere sollte es domänenspezifische Begriffe erkennen
und verarbeiten können.
Ferner sollte es auch sprachenunabhängig sein, das heißt
unabhängig sein von der gewählten Sprache, beispielsweise
Deutsch, Englisch, Französisch, etc.
Übliche Wortvarianten, beispielsweise die Pluralform eines
Begriffs, können durch Einsatz der sogenannten
morphologischen Analyse behandelt werden.
Eine Komponente zur morphologischen Analyse enthält
üblicherweise zwei Arten von Daten:
- - Allgemein sprachabhängige Regeln, und
- - alle Ausnahmen zu den Regeln, die es in der jeweiligen Sprache gibt.
Diese Daten erlauben eine Entscheidung, ob oder ob nicht zwei
gegebene Wörter Varianten voneinander sind.
Die morphologische Analyse hat sich jedoch als eher
ungeeignet insbesondere für den Einsatz bei
domänenspezifischen Begriffen, wie beispielsweise Akronymen
("CAD", "CACD", "CAN" usw.) oder auch Kunstwörtern
(beispielsweise "ISO 9000", "ISO 9001") herausgestellt.
Ferner ist es bekannt, für solche Standard-Suchverfahren
Thesauri einzusetzen, um Wortvarianten zu erkennen.
Unter einem Thesaurus ist ein elektronisches strukturiertes
Wörterbuch zu verstehen, bei dem einem Begriff jeweils
Beziehungen zugeordnet sind, beispielsweise Synonym-
Beziehungen, Akronym-Beziehungen, Oberbegriffs-Unterbegriffs-
Beziehungen, etc.. Ein elektronischer Thesaurus kann somit
beliebig relational oder auch hierarchisch strukturiert sein.
Bei einem elektronisches Thesaurus ist die Erweiterung einer
Suchbegriffsliste mit jeder Variante des ursprünglichen
Suchbegriffs möglich, mit der nach entsprechenden Textstellen
innerhalb eines technischen Dokuments gesucht wird.
Ein Nachteil eines elektronischen Thesaurus ist jedoch darin
zu sehen, dass insbesondere ein domänenspezifischer
elektronischer Thesaurus nur selten vorhanden ist und die
Erzeugung eines solchen manuell erfolgen muss und somit sehr
aufwendig zu erstellen ist.
Weiterhin ist aus [1] ein sogenanntes "Wortähnlichkeits-
Ermittlungsverfahren" bekannt.
Der in [1] beschriebene Algorithmus wird auch als
"Levenshtein Distance" (auch "Edit Distance" genannt)
bezeichnet.
Anschaulich ausgedrückt findet bei diesem Verfahren die
Ähnlichkeitsbildung dadurch statt, dass der Abstand zwischen
zwei elektronischen Zeichenketten ermittelt wird, basierend
auf der minimalen Anzahl von Buchstabenbewegungen innerhalb
der jeweiligen elektronischen Zeichenketten, die erforderlich
sind, um die beiden Zeichenketten ineinander umzuwandeln.
Unter einer elektronischen Zeichenkette ist in diesem
Zusammenhang eine Folge zusammenhängender Zeichen,
beispielsweise ein Wort oder eine Zeichenfolge wie
Abkürzungen oder Zeichenfolgen mit anderem Begriffsinhalt zu
verstehen.
Die Levenshtein Distance ermöglicht zwar einen systematischen
Vergleich zwischen zwei elektronischen Zeichenketten, weist
jedoch den Nachteil auf, dass er eine geringere Ähnlichkeit
für zwei Zeichenketten liefert, die nur einen überlappenden
Teil innerhalb beider Zeichenketten aufweisen, beispielsweise
bei den beiden Begriffen "Zugfolgezeit" und "Zugwechselzeit".
Ferner hat es sich herausgestellt, dass das aus [1] bekannte
Verfahren insbesondere schlechte Ergebnisse liefert, wenn
einzelne Teile innerhalb zweier Zeichenketten in ihrer
Reihenfolge verschoben sind.
Somit liegt der Erfindung das Problem zugrunde, die
Ähnlichkeit zweier elektronischer Zeichenketten miteinander
zu ermitteln, wobei die ermittelte Ähnlichkeit hinsichtlich
der tatsächlichen Übereinstimmung eine verbesserte
Verlässlichkeit aufweist als die bekannten, oben
beschriebenen Verfahren.
Weiterhin besteht ein erhebliches Problem darin, dass
Informationen über ein spezifisches Konzept, insbesondere
über ein spezifisches technisches Konzept in mehreren
unterschiedlichen Arten in einem elektronischen Dokument
vorkommen und beschrieben werden können.
Die Terminologie zur Beschreibung eines solchen Konzeptes
ändert sich somit oftmals von elektronischem Dokument zu
elektronischem Dokument oder sogar innerhalb eines
elektronischen Dokuments, welches häufig von mehreren
unterschiedlichen Autoren geschrieben worden ist.
So ist beispielsweise bei einer Anforderungsbeschreibung in
einem großen Umfang sehr häufig zu bemerken, dass sich die
verwendete Terminologie innerhalb der
Anforderungsbeschreibung sehr stark ändert.
Außerdem sind in technischen elektronischen Dokumenten
Informationen häufig nicht nur als Text, sondern auch in
numerischer Form zu finden.
Beispielsweise kann eine Datumsangabe als "13. März" oder als
"13.03.99" oder auch als "13. März 1999" bezeichnet sein.
Mit den bekannten schlagwortbasierten Textsuchverfahren
können solche numerischen Informationen nicht entsprechend
ermittelt und interpretiert werden.
Ein weiteres Problem bei einer Begriffssuche bzw.
insbesondere bei einer Konzeptsuche von Elementen innerhalb
eines oder mehrerer elektronischer Dokumente ist, dass ein
Konzept in dem Text eines oder mehrerer elektronischer
Dokumente häufig nicht von einem einzelnen Schlagwort,
sondern von einer Kombination aus Schlagwörtern und/oder
Nummern, das heißt numerischen Werten, umschrieben wird.
Eine gesuchte Zeichenkette aus textueller oder numerischer
Information wird im Weiteren als Begriff bezeichnet.
Solche Begriffe können relativ einfach aufgebaut und somit
leicht ermittelbar sein, wie beispielsweise numerische
Information mit der numerischen Information zugeordneter
Maßeinheit, sie können aber auch sehr komplex aufgebaut sein
mit einer Mehrzahl von alphabetischen und numerischen
Zeichenketten.
In jedem Konzept sind üblicherweise unterschiedliche Begriffe
aufzufinden, die in einem oder mehreren elektronischen
Dokumente vorkommen.
Eine bekannte Vorgehensweise, um die oben beschriebene
Problematik zu reduzieren, ist die Textsuche beispielsweise
mittels sogenannter "Wild Cards", um einfache Zeichenfolgen
innerhalb eines Begriffs aufzufinden.
Dennoch sind die "Wild Cards" keine für einen Benutzer in der
Praxis akzeptable Lösung, wenn ein Begriff sehr komplex
aufgebaut ist oder wenn mehrere Begriffe gleichzeitig gesucht
werden.
Die oben dargestellten Probleme führen dazu, dass es für
Benutzer eines Textverarbeitungssystems häufig sehr schwer
wird, Anfragen zu formulieren, um alle Textteile, die für ein
spezifisches Thema, das heißt bezüglich eines oder mehrerer
Begriffe relevant sind, innerhalb einer Vielzahl
elektronischer Dokumente zu ermitteln.
Aus diesem Grund ist es sehr aufwendig und kostenintensiv,
ein automatisches System zu ermitteln, welches mit einem
ausreichenden Verlässlichkeitsgrad Information aus einem
elektronischen Dokument automatisch extrahiert.
Aus [2], [3] und [4] sind Begriffs-Ermittlungssysteme bekannt,
mit denen Konzepte in einem oder mehreren elektronischen
Dokumenten ermittelt werden können.
Diese bekannten Begriffs-Ermittlungssysteme weisen jedoch
insbesondere den Nachteil auf, dass sie für
anwendungsspezifische Konzepte entwickelt wurden.
Die von diesen Begriffs-Ermittlungssystemen verwendeten
Klassifizierungsregeln sind für die Begriffsermittlung
entweder manuell durch Experten vorgegeben oder durch ein
intensives Training des Systems erstellt.
Die einzelnen Komponenten eines solchen bekannten Begriffs-
Ermittlungssystems sind ferner von weiteren linguistischen
Analysen, wie beispielsweise Parsern oder morphologischen
Analysen der elektronischen Dokumente, abhängig.
Ferner ist aus [5] ein Begriffs-Ermittlungssystem bekannt,
welches semantische Merkmale in einer Vielzahl elektronischer
Dokumente erkennen kann, um einzelne elektronische Dokumente
oder Teile davon gemäß vorgegebenen Kriterien zu
klassifizieren.
Auch bei dem aus [5] bekannten System sind die verwendeten
Klassifizierungsregeln für die Anwendung von Experten manuell
erstellt worden und an die spezielle Anwendung angepasst.
Ferner wird bei dem System aus [5] lediglich die Struktur und
die Formatierung der elektronischen Dokumente berücksichtigt,
nicht jedoch der Inhalt der elektronischen Dokumente.
Weiterhin ist aus [6] ein System zur Klassifikation
elektronischer Dokumente auf der Basis der Technologie des
fallbasierten Schließens bekannt.
Bei dem aus [6] bekannten System wird sowohl die syntaktische
Klasse eines Worts ermittelt, das heißt es wird ermittelt, ob
es sich bei dem Begriff um ein Verb, Substantiv etc. handelt,
und die Bedeutung eines Wortes.
Die Klassifikation wird hauptsächlich auf der Basis von
linguistischen Merkmalen der Worte durchgeführt, die bis zu
zwei Begriffe vor oder nach einem vorgegebenen Wort in einem
elektronischen Dokument vorkommen.
Insofern ist das aus [6] bekannte System für die
Identifikation von Konzepten, die als kompliziertes Muster,
das heißt als eine aus einer Vielzahl von Worten oder
numerischen Angaben bestehenden Begriffs in einem
elektronischen Dokument vorkommen, nicht geeignet.
Ferner ist das in [6] beschriebene System nicht in der Lage,
numerische Information zu berücksichtigen.
Somit liegt der Erfindung das Problem zugrunde, eine
Begriffs-Vergleichsstruktur zu ermitteln, welche eine
flexiblere Ermittlung von Begriffen in einem elektronischen
Dokument ermöglicht.
Weiterhin liegt der Erfindung das Problem zugrunde, ein
gegenüber dem Stand der Technik flexibleres Ermitteln von
Begriffen in einem elektronischen Dokument zu ermöglichen.
Die Probleme werden durch die Vorrichtung und das Verfahren
zum Ermitteln einer Begriffs-Vergleichsstruktur zum Ermitteln
von Elementen aus mindestens einem elektronischen Dokument,
durch eine Vorrichtung und ein Verfahren zum Ermitteln von
Begriffen in einem elektronischen Dokument sowie durch
Computerlesbare Speichermedien und Computerprogramm-Elemente
mit den Merkmalen gemäß den unabhängigen Patentansprüchen
gelöst.
Eine Vorrichtung zum Ermitteln einer Begriffs-
Vergleichsstruktur zum Ermitteln von Elementen aus mindestens
einem elektronischen Dokument weist einen Prozessor aus, der
derart eingerichtet ist, dass folgende Schritte durchführbar
sind.
Aus vorgegebenen Basisbegriffen werden Zwischenbegriffe
ermittelt.
Die Basisbegriffe können sowohl manuell vorgegeben werden,
als auch aus einem oder einer Vielzahl von elektronischen
Dokumenten mittels üblicher Parser bestimmt werden.
Im Rahmen der Erfindung kann sowohl ein elektronisches
Dokument als auch eine Vielzahl elektronischer Dokumente
berücksichtigt werden.
Unter einem elektronischen Dokument ist in diesem
Zusammenhang eine elektronische Datei zu verstehen, in der
textuelle Information, allgemeine Bildinformation,
beispielsweise Videoinformation oder numerische Information
enthalten ist und gemäß einem durch einen Computer
verarbeitbaren Codierungsformat codiert sind.
Aus mehreren Basisbegriffen wird ein Zwischenbegriff
gebildet, wobei jeder Zwischenbegriff zumindest einen Teil
eines oder mehrerer Basisbegriffe, die zur Bildung des
Zwischenbegriffs berücksichtigt werden, enthält.
Weisen die Basisbegriffe lediglich textuelle Information auf,
so wird der Zwischenbegriff gebildet, indem die zwischen den
Basisbegriffen identisch übereinstimmenden Zeichenketten als
Zwischenbegriff verwendet werden.
Weist jedoch einer oder mehrere der berücksichtigten
Basisbegriffe numerische Information, beispielsweise eine
Mengenangabe oder eine Datumsangabe auf, so ist es gemäß
einer Ausgestaltung der Erfindung vorgesehen, dass der
Zwischenbegriff gebildet wird, indem das durch die
Basisbegriffe jeweils begrenzte Werteintervall als
Zwischenbegriff verwendet wird.
Zumindest aus den ermittelten Zwischenbegriffen wird die
Begriffs-Vergleichsstruktur gebildet, die zum Ermitteln von
Begriffen aus mindestens einen elektronischen Dokument
verwendet wird.
Die Ermittlung von Begriffes aus mindestens einem
elektronischen Dokument erfolgt unter Verwendung der auf die
oben beschriebene Weise ermittelten Begriffs-
Vergleichsstruktur. Zum Ermitteln des Begriffs wird das
Prinzip des fallbasierten Schließens eingesetzt, in dessen
Rahmen die Begriffs-Vergleichsstruktur verwendet wird.
Das Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur
weist die von einem Prozessor durchführbaren, oben
beschriebenen Verfahrensschritte auf.
Ebenso weist das Verfahren zum Ermitteln eines oder mehrerer
Begriffe aus mindestens einem elektronischen Dokument die
oben dargestellten von einem Prozessor durchführbaren
Verfahrensschritte auf.
Die Erfindung kann sowohl in Hardware, das heißt mittels
einer speziellen elektronischen Schaltung, realisiert werden,
als auch mittels eines Computerprogramms, das heißt in
Software.
Die Computerlesbaren Speichermedien haben ein
Computerprogramm gespeichert, das bei Durchführung mittels
eines Prozessors die oben dargestellten Verfahrensschritte
aufweist.
Ferner weist ein Computerprogramm-Element jeweils die oben
beschriebenen Verfahrensschritte auf, wenn es von einem
Prozessor ausgeführt wird.
Durch die Erfindung wird insbesondere aufgrund der Bildung
von Zwischenbegriffen, unter deren Berücksichtigung der
Begriffs-Vergleichsstruktur ermittelt wird, die im Rahmen des
fallbasierten Schließens berücksichtigt wird, eine gegenüber
den bekannten Systemen erheblich flexiblere, von den
einzelnen Anwendungen unabhängige Einsetzbarkeit erreicht.
Weiterhin ist durch die Erfindung, insbesondere durch die
Bildung der Zwischenbegriffe auch die Berücksichtigung von
numerischen Ausdrücken zur Ermittlung von Begriffen,
allgemein von Konzepten innerhalb eines oder mehrerer
elektronischer Dokumente möglich.
Damit wird die Einsetzbarkeit und die Benutzerfreundlichkeit
eines automatisierten Textermittlungssystems durch die
Erfindung erheblich verbessert.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den
abhängigen Ansprüchen.
Die im Weiteren dargelegten Ausgestaltungen der Erfindung
betreffen sowohl die Vorrichtungen, die Verfahren, die
Computerlesbaren Speichermedien als auch die
Computerprogramm-Elemente.
In einer Ausgestaltung der Erfindung ist es vorgesehen, dass
die Begriffs-Vergleichsstruktur zusätzlich unter
Berücksichtigung der vorgegebenen Basisbegriffe erfolgt,
wodurch insbesondere die Verlässlichkeit und Genauigkeit der
Begriffsermittlung und damit die "Qualität" der ermittelten
Begriffs-Vergleichsstruktur weiter erhöht wird.
Weiterhin kann zusätzlich in der Begriffs-Vergleichsstruktur
ein Teil oder auch ein gesamter elektronischer Thesaurus, der
sowohl eine allgemeine relationale Struktur als auch einer
hierarchische, das heißt baumartige Struktur, aufweisen kann,
in die Begriffs-Vergleichsstruktur übernommen werden.
Gemäß einer weiteren Ausgestaltung der Erfindung ist die
Begriffs-Vergleichsstruktur hierarchisch strukturiert.
Durch diese Ausgestaltung ist es möglich, die
Begriffsermittlung schneller, einfacher und somit
kostengünstiger durchzuführen.
Weiterhin kann jedem vorgegebenen Basisbegriff und/oder jedem
Zwischenbegriff ein Aktivationswert zugeordnet sein. Der
einem Zwischenbegriff zugeordnete Aktivationswert kann
gewichtet sein abhängig von den Aktivationswerten, die den
Basisbegriffen zugeordnet sind oder die Zwischenbegriffen
untergeordneter Hierarchieebenen zugeordnet sind.
Es kann grundsätzlich in der Begriffs-Vergleichsstruktur eine
beliebige Anzahl von Hierarchieebenen mit jeweiligen
Zwischenbegriffen vorgesehen sein, das heißt die
Zwischenbegriffe müssen nicht ausschließlich aus Basisbegriff
ermittelt werden, sondern können auch aus weiteren
Zwischenbegriffen ermittelt werden.
Der einem Zwischenbegriff zugeordnete Aktivationswert kann
weiterhin abhängig von der Ähnlichkeit der Basisbegriffe oder
Zwischenbegriffe, aus denen der jeweilige Zwischenbegriff
gebildet worden ist, ermittelt werden, wobei der
Ähnlichkeitswert gemäß einem vorgegebenen
Ähnlichkeitskriterium ermittelt wird.
Die den Zwischenbegriffen oder den Basisbegriffen
zugeordneten Aktivationswerte können im Rahmen das
fallbasierten Schließens berücksichtigt werden.
Weiterhin ist es gemäß einer Ausgestaltung der Erfindung
vorgesehen, dass im Rahmen das fallbasierten Schließens
mehrere berücksichtigte Basisbegriffe und/oder
Zwischenbegriffe ein gemeinsamer Gesamt-Ähnlichkeitswert
ermittelt wird, mit dem beschrieben wird, wie ähnlich die
Gesamtheit der mehreren berücksichtigten Basisbegriffe
und/oder Zwischenbegriffe zu den jeweiligen vorgegebenen
Basisbegriffen bzw. den Zwischenbegriffe der Begriffs-
Vergleichsstruktur sind.
Weiterhin kann die Reihenfolge der gemeinsam berücksichtigten
Begriffe, wie sie in dem jeweiligen elektronischen Dokument
bzw. innerhalb der Begriffs-Vergleichsstruktur auftreten, im
Rahmen des fallbasierten Schließens berücksichtigt werden.
Durch diese Ausgestaltung der Erfindung wird die Genauigkeit
der Begriffs-Vergleichsstruktur weiter verbessert.
Die Erfindung kann sowohl im Rahmen eines Textsuchverfahrens,
beispielsweise auch im Rahmen einer Internet-Suchmaschine
eingesetzt werden, als auch zur Klassifikation und Einteilung
elektronischer Dokumente entsprechend unterschiedlicher
Suchkriterien, die durch die Begriffs-Vergleichsstruktur
vorgegeben sind.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren
dargestellt und wird im Weiteren näher erläutert.
Es zeigen
Fig. 1 eine Skizze, anhand der die Vorgehensweise zum
Ermitteln von Begriffen in einem elektronischen
Dokument und eine anschließende Klassifikation des
elektronischen Dokuments gemäß einem
Ausführungsbeispiel der Erfindung dargestellt ist;
Fig. 2 ein Blockdiagramm, in dem ein Scanner und ein
Computer zum Erfassen und Speichern elektronischer
Dokumente gemäß einem Ausführungsbeispiel der
Erfindung dargestellt sind;
Fig. 3 eine Skizze, in der das Ermitteln von
Zwischenbegriffen aus Basisbegriffen dargestellt ist;
Fig. 4 eine Skizze, in der das Hinzufügen von Basisbegriffen
und Zwischenbegriffen in eine Datenbank für das
fallbasierte Schließen dargestellt ist;
Fig. 5 eine Skizze, in der eine Positionsgewichtungsfunktion
übereinstimmender Zeichenfolgen unterschiedlicher
Basisbegriffe oder Zwischenbegriffe, aus denen ein
Zwischenbegriff ermittelt wird, dargestellt ist;
Fig. 6 eine Skizze, anhand der die Propagierung von
Aktivationswerten im Rahmen der Hinzufügung neuer
Basisbegriffe zu der Datenbank, in der die Begriffs-
Vergleichsstruktur gespeichert ist;
Fig. 7 eine Skizze, in der sowohl die Vorgehensweise zum
Erstellen der Begriffs-Vergleichsstruktur als auch
die Anwendungsphase zum Ermitteln von Begriffen in
einem elektronischen Dokument sowie die
Klassifikation eines elektronischen Dokuments
dargestellt ist;
Fig. 8 eine Skizze, in der die einzelnen Verfahrensschritte
zum Ermitteln der Begriffs-Vergleichsstruktur gemäß
einem Ausführungsbeispiel der Erfindung dargestellt
ist.
Fig. 9 ein Ablaufdiagramm, in dem die einzelnen
Verfahrensschritte des Verfahrens zum Ermitteln eines
Ähnlichkeitswerts zweier Zeichenketten gemäß einem
Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 10a und 10b zwei Beispiele der Initialisierung eines
Buchstabenregisters und eines
Umsetzungskostenregisters anhand zweier
unterschiedlicher Zeichenketten;
Fig. 11a und 11b zwei Beispiele des Inhalts des
Buchstabenregisters und des Umsetzungskostenregisters
für zwei unterschiedliche Vergleiche zweier
Zeichenketten gemäß einem Ausführungsbeispiel der
Erfindung;
Fig. 12 eine Skizze einer Konvertierungsfunktion, mit der
ein Ähnlichkeitswert auf einen
Wahrscheinlichkeitswert abgebildet wird;
Fig. 2 zeigt ein elektronisches Dokumentationssystem 200,
mittels dem eine Vielzahl technischer Dokumente 201,
beispielsweise Lastenhefte, Pflichtenhefte,
Produktbeschreibungen, Projektverträge etc. erfasst,
verarbeitet und gespeichert werden.
Die technischen Dokumente 201 werden mittels eines Scanners
202 erfasst, digitalisiert und als digitalisierte Dokumente
204 einem Computer 209, der mit dem Scanner 202 über eine
Leitung 203 oder einer Funkverbindung oder einer
Infrarotverbindung verbunden ist, zugeführt.
Der Computer 209 weist eine Eingangs-/Ausgangs-Schnittstelle
205 auf, die über einen Computerbus 208 mit einem Prozessor
207 und einem Speicher 206 des Computers 209 gekoppelt ist.
Ferner ist der Computer 209 über die Eingangs-/Ausgangs-
Schnittstelle 205 über eine zweite Leitung 210 mit einem
Bildschirm 211 zur Darstellung von ermittelter
Ergebnisinformation verbunden.
Weiterhin ist der Computer 209 über die Eingangs-/Ausgangs-
Schnittstelle 205 über eine dritte Leitung 212 mit einer
Computermaus 213 und über eine vierte Leitung 214 mit einer
Tastatur 215 verbunden.
Die digitalisierten technischen elektronischen Dokumente 204
werden in dem Speicher 206 des Computers 209 gespeichert und
es wird ein Zeichenerkennungsverfahren (OCR-Verfahren) auf
die technischen digitalisierten Dokumente 204 durchgeführt
mittels des Prozessors 207, wodurch OCR-bearbeitete
technische elektronische Dokumente erzeugt werden, die
wiederum in dem Speicher 206 des Computers 209 gespeichert
werden.
Die technischen elektronischen Dokumente liegen nach der OCR-
Bearbeitung als elektronische Zeichenketten vor, die
beispielsweise gemäß dem ASCII-Standard codiert sind.
In Fig. 3 ist gezeigt, wie für Basisbegriffe oder auch
Zwischenbegriffe aufgrund einer Generalisierung jeweils
mehrere Basisbegriffe oder mehrere Zwischenbegriffe ein
Zwischenbegriff ermittelt wird, der in die Begriffs-
Vergleichsstruktur integriert wird, das heißt in der
Datenbank, die, wie im Weiteren noch detailliert erläutert
wird, im Rahmen des fallbasierten Schließens zur Ermittlung
eines Begriffs in einem oder mehrerer elektronischer
Dokumente verwendet wird.
Aus den elektronischen Dokumenten werden elektronische
Teildokumente, die im Weiteren als Textbeispiel bezeichnet
werden, ermittelt und jeweils zum Erstellen der Begriffs-
Vergleichsstruktur berücksichtigt.
Aus einem oder mehreren Textbeispielen aus einem oder
mehreren elektronischen Dokumenten 201 werden Basisbegriffe
301, 302, 303, 304, 305 ermittelt, gemäß diesem
Ausführungsbeispiel folgende Basisbegriffe:
- - Ein erster Basisbegriff 301 "required";
- - ein zweiter Basisbegriff 302 "Main_ requirement";
- - ein dritter Basisbegriff 303 "100";
- - ein vierter Basisbegriff 304 "money";
- - ein fünfter Basisbegriff 305 "75".
Jeder Basisbegriff 301, 302, 303, 304, 305 wird gewichtet.
Das Gewicht, welches einem Basisbegriff 301, 302, 303, 304,
305 zugeordnet wird, wird aus der relativen Häufigkeit
des/der entsprechenden Wortes/Nummer, das heißt numerischen
Begriffs innerhalb des zum Training verwendeten Textbeispiels
im Vergleich zu der relativen Häufigkeit innerhalb der
gesamten elektronischen Dokumente berechnet.
Die Basisbegriffe 301, 302, 303, 304, 305, die keine
statistische Vorhersagerelevanz aufweisen, das heißt
diejenigen Basisbegriffe, die relativ selten in den
Textbeispielen vorkommen oder sehr häufig in den
Textbeispielen vorkommen, werden ein Gewicht mit dem Wert "0"
zugeordnet.
Gemäß einer weiteren Ausgestaltung der Erfindung kann es
vorgesehen sein, lediglich eine vorgegebene Anzahl von
Iterationen im Rahmen des Generalisierungsprozesses
vorzusehen und nach Durchführung der vorgegebenen Anzahl von
Iterationen oder auch nach Bildung von einer vorgegebenen
Anzahl Hierarchieebenen den Generalisierungsvorgang
abzubrechen.
Denjenigen Basisbegriffen 301, 302, 303, 304, 305, die
relativ häufig in den zum Training verwendeten elektronischen
Dokumenten vorkommen, wird ein Gewicht von ungefähr "1"
zugeordnet. Anschaulich wird den Basisbegriffen 301, 302,
303, 304, 305 ein entsprechend dem oben dargelegten Kriterium
angepasster Wert zwischen 0 und 1 zugeordnet.
Wie in Fig. 3 dargestellt ist, wird ein erster Zwischenbegriff
306 durch Generalisierung des ersten Basisbegriffs 301 und
des zweiten Basisbegriffs 302 gebildet.
Da sowohl der erste Basisbegriff 301 als auch der zweite
Basisbegriff 302 jeweils eine rein alphabetische Zeichenfolge
ist, erfolgt die Generalisierung zu dem ersten
Zwischenbegriff 306 dadurch, dass eine in beiden
Basisbegriffen 301, 302 vorkommende Zeichenfolge, gemäß
diesem Ausführungsbeispiel die Zeichenfolge "require",
ermittelt wird und die maximale Anzahl von Zeichen, die in
einem Basisbegriff 301, 302 vor diesem Zwischenbegriffskern
307 vorkommt, ermittelt und als Vorkernwert 308 als
Zahlenwert, gemäß diesem Ausführungsbeispiel als Zahlenwert 5
(vor dem Zwischenbegriffskern 307 "require" weist der zweite
Basisbegriff 302 fünf Zeichen, nämlich "Main_ " auf)
Weiterhin wird für die berücksichtigten Basisbegriffe 301,
302 ermittelt, wie viel Zeichen maximal nach dem
Zwischenbegriffskern 307 in einem der beiden Basisbegriffe
301, 302 vorkommen.
Gemäß diesem Ausführungsbeispiel weist der erste Basisbegriff
nach dem Zwischenbegriffskern 307 ein Zeichen ("d") sowie der
zweite Basisbegriff 302 vier Zeichen ("ment")
Somit wird als Nachkernwert 309 der Zahlenwert 4 gemeinsam
mit dem Vorkernwert 308 und dem Zwischenbegriffskern 307 als
erster Zwischenbegriff 306 gespeichert.
Sowohl der dritte Basisbegriff 303 als auch der fünfte
Basisbegriff 305 stellen rein numerische Ziffernfolgen dar.
Diese werden zu einem zweiten Zwischenbegriff 310
generalisiert gemäß der Vorschrift, dass ein mittels der
Zahlenwerte der beiden Basisbegriffe 303, 305 ein
Werteintervall 311 definiert wird, gemäß diesem
Ausführungsbeispiel ein Werteintervall von [75, 100] (fünfter
Basisbegriff 305 weist den Wert "75" auf dritter Basisbegriff
303 weist den Wert "100" auf).
Diese in Fig. 3 dargestellte Vorgehensweise wird gemäß diesem
Ausführungsbeispiel für alle Worte oder numerische
Zeichenfolgen, die in den für ein Training berücksichtigten
elektronischen Dokumente bzw. Textbeispiele enthalten sind,
so lange durchgeführt bis keine Generalisierung zwischen den
einzelnen Basisbegriffen bzw. Zwischenbegriffen mehr möglich
ist.
Somit ergibt sich eine gemäß diesem Ausführungsbeispiel
hierarchisch strukturierte Baumstruktur, die die Begriffs-
Vergleichsstruktur 300 bildet.
Anschaulich erfolgt somit eine Generalisierung bei
alphabethischen Zeichenketten durch Ermittlung der größten
Überlappung von Zeichen in den berücksichtigten
Basisbegriffen und der Anzahl von fehlenden Buchstaben vor
und nach der Überlappung der übereinstimmenden Zeichen.
Gemäß diesem Ausführungsbeispiel werden jeweils zwei
Basisbegriffe oder Zwischenbegriffe pro Iteration miteinander
berücksichtigt zur Bildung eines weiteren Zwischenbegriffs.
Es werden jeweils aus allen berücksichtigten Basisbegriffen
diejenigen Basisbegriffe gewählt, die zueinander gemäß dem im
Weiteren beschriebenen Ähnlichkeitskriterium die größte
Ähnlichkeit aufweisen.
Die Ähnlichkeit eines Begriffs wird gemäß der folgenden
Vorgehensweise ermittelt:
Wie in Fig. 9 gezeigt ist, ist für jedes Zeichen einer ersten Zeichenkette 901 ein Zeichenregister 902 vorgesehen, welchem Zeichenregister 902 jeweils ein Umsetzungskostenregister 903 zugeordnet ist.
Wie in Fig. 9 gezeigt ist, ist für jedes Zeichen einer ersten Zeichenkette 901 ein Zeichenregister 902 vorgesehen, welchem Zeichenregister 902 jeweils ein Umsetzungskostenregister 903 zugeordnet ist.
In den Zeichenregister 902 wird, wie im Weiteren näher
erläutert wird, die Zuordnung zwischen je zwei Zeichen der
ersten Zeichenkette 901 und einer jeweils berücksichtigten
zweiten Zeichenkette 904 gespeichert.
In einem Umsetzungskostenregister 903 wird, wie im Weiteren
ebenfalls näher erläutert wird, jeweils der Unterschied
zwischen zwei einander zugeordneten Zeichen der ersten
Zeichenkette 901 und der zweiten Zeichenkette 904
gespeichert.
Gemäß diesem Ausführungsbeispiel wird jedes Zeichenregister
902 mit einem ersten Wert (gemäß diesem Ausführungsbeispiel
dem Wert "-1") initialisiert.
Ferner wird jedes Umsetzungskostenregister 903 mit einem
zweiten Wert (gemäß diesem Ausführungsbeispiel mit dem Wert
"1") initialisiert.
Fig. 10a zeigt die Initialisierung der Buchstabenregister 902
sowie der Umsetzungskostenregister 903 für das Wort
"Sitzplatz" als erste Zeichenkette 901.
Wie Fig. 10a zu entnehmen ist, sind für das Wort "Sitzplatz"
neun Buchstabenregister 902 und neun Umsetzungskostenregister
903 vorgesehen, was der Länge des Wortes, das heißt der
Anzahl der Buchstaben, allgemein der Zeichen, in der ersten
Zeichenkette 901 entspricht.
Gemäß dem in Fig. 10a dargestellten Ausführungsbeispiel ist
die Zeichenfolge "Plätze(sitze)" als zweite Zeichenkette 904
gewählt.
Gemäß Fig. 10b ist die Initialisierung für ein Beispiel
dargestellt, bei dem der Ausdruck "Plätze(sitze)" als erste
Zeichenkette 904 gewählt wurde und der Ausdruck "Sitzplatz"
als zweite Zeichenkette 904.
Wie Fig. 10b zu entnehmen ist, sind für diesen Fall dreizehn
Zeichenregister 902 und Umsetzungskostenregister 903
vorgesehen, die mit dem entsprechenden Wert "-1"
(Zeichenregister 902) bzw. "1" (Umsetzungskostenregister 903)
initialisiert werden, entsprechend der Anzahl der Zeichen in
dem Ausdruck "Plätze(sitze)".
In einem weiteren Schritt wird die Position eines Zeichens
der zweiten Zeichenkette 904 für ein Zeichen der ersten
Zeichenkette 901 ermittelt und in das dem jeweiligen Zeichen
der ersten Zeichenkette 901 zugeordnete Buchstabenregister
eingetragen, das heißt gespeichert, wobei die Position
desjenigen Zeichens der zweiten Zeichenkette 904 gespeichert
wird, die gemäß einem vorgegebenen Kriterium zu dem
entsprechenden Zeichen der ersten Zeichenkette, das gerade
betrachtet wird, passt.
Anschaulich bedeutet dies beispielsweise, dass für jedes
Zeichen der ersten Zeichenkette 901 ein Zeichen innerhalb der
zweiten Zeichenkette 904 gesucht wird, welches mit dem
Zeichen der ersten Zeichenkette übereinstimmt oder diesem
zumindest gemäß einer vorgegebenen Ähnlichkeitsliste
ausreichend ähnlich ist.
So kann beispielsweise in einer Ähnlichkeitsliste vorgesehen
sein, dass ein Buchstabe zwar gleich ist, dieser jedoch
einmal klein und einmal groß geschrieben sein kann.
Weiterhin kann ein Zeichen der ersten Zeichenkette 901 als
einem Zeichen der zweiten Zeichenkette 904 gemäß dem
vorgegebenen Kriterium ausreichend ähnlich angesehen werden,
wenn eines der Zeichen der Umlaut des jeweiligen anderen
Zeichens ist, das heißt das Zeichen der ersten Zeichenkette
901 und das Zeichen der zweiten Zeichenkette 904, welches dem
Kriterium genügt, bilden ein "Umlautpaar" gemäß der deutschen
Sprache, beispielsweise "a-ä", "o-ö", "u-ü".
Weiterhin kann vorgesehen sein, dass zwei Zeichen dem
Kriterium genügen, wenn beide Zeichen Ziffern sind, der Wert
der Ziffer jedoch unterschiedlich ist.
Weiterhin können auch unterschiedliche Satzzeichen,
beispielsweise einmal ein Fragezeichen und ein Zeichen der
anderen Zeichenkette ein Ausrufezeichen oder auch ein Punkt
und ein Komma bzw. ein Komma und ein Strichpunkt, usw. als
Zeichen der beiden Zeichenketten 901, 904 dem Kriterium
genügen.
Weiterhin können auch unterschiedliche Klammerformen als
einander ausreichend ähnlich angesehen werden und damit dem
Kriterium genügen, beispielsweise jeweils eine runde Klammer
und eine geschweifte Klammer und/oder eine eckige Klammer.
In der Ähnlichkeitsliste ist für jedes gebildete Zeichenpaar,
welches überhaupt zulässig ist, ein Umsetzungskostenwert
gespeichert, mit dem angegeben wird, wie stark sich die
beiden Zeichen des jeweiligen Zeichenpaars voneinander
unterscheiden.
Sind die zwei ermittelten Zeichen der ersten Zeichenkette 901
bzw. der zweiten Zeichenkette 904 exakt gleich, so wird dem
entsprechenden Umsetzungskostenregister 903 der
Umsetzungskostenwert mit dem Wert "0" zugeordnet.
Die Umsetzungskosten für zwei einander zugeordnete Zeichen
können jedoch bei unterschiedlichen Buchstaben entsprechend
der gewählten Unähnlichkeit, wie er beispielsweise durch
einen Benutzer vorgegeben wird und in der Ähnlichkeitsliste
gespeichert wird, gewählt werden.
Wenn mehrere Zeichen der zweiten Zeichenkette 904 zu einem
Zeichen der ersten Zeichenkette 901 passen würden, wird die
Position der zweiten Zeichenkette 904 in das entsprechende
Zeichenregister 902 eingetragen, die zu der größten
Überlappung zweier Zeichenketten gehört, wie sie im Weiteren
noch näher erläutert wird.
Wenn die einander zugeordneten Zeichen der zwei Zeichenketten
901, 904 nicht gleich sind, werden die entsprechenden
Umsetzungskostenwerte in das Umsetzungskostenregister 903
gespeichert.
Wenn kein Zeichen der zweiten Zeichenkette zu einem Zeichen
der ersten Zeichenkette 901 gemäß dem vorgegebenen Kriterium
passt, bleiben die Werte aus der Initialisierungsphase, das
heißt der gemäß dem Ausführungsbeispiel der Wert "-1", in dem
Zeichenregister 902 bzw. der Werte "1" für das
Umsetzungskostenregister 903 gespeichert.
Fig. 11a zeigt das Buchstabenregister 902 und das
Umsetzungskostenregister 903 für den Ausdruck "Sitzplatz" als
erste Zeichenkette 904 und den Ausdruck "Plätze(sitze)" nach
erfolgter Zuordnung der Zeichen der beiden Zeichenketten 901,
904 zueinander.
Wie Fig. 11a zu entnehmen ist, ist in einem ersten
Buchstabenregister 1101, welches dem Zeichen "S" des Wortes
"Sitzplatz" zugeordnet ist, der Wert "7" gespeichert, welcher
der Position des Buchstabens "s" innerhalb des Wortes
"Plätze(sitze)" als zweite Zeichenkette 904 entspricht, wie
dies in Fig. 11a mit der Abbildungslinie 1102 dargestellt ist.
Da der Buchstabe "S" in dem Wort Sitzplatz groß geschrieben
ist und in dem Wort "Plätze(sitze)" klein geschrieben ist,
ist in dem ersten Zeichenregister 1101 zugeordneten ersten
Umsetzungskostenregister 1103 der Umsetzungskostenwert "0,5"
gespeichert.
In einem zweiten Zeichenregister 1104, welches dem Buchstaben
"i" der ersten Zeichenkette 901 zugeordnet ist, ist der Wert
"8" gespeichert, da in der zweiten Zeichenkette 904 der
Buchstabe "i" an neunter Position steht.
In diesem Zusammenhang ist anzumerken, dass gemäß dem
Ausführungsbeispiel die erste Position als Position "0"
bezeichnet wird.
Da die beiden Buchstaben "i" exakt miteinander
übereinstimmen, ist in dem dem zweiten Zeichenregister 1104
zugeordneten zweiten Umsetzungskostenregister 1105 der Wert
"0" gespeichert.
Entsprechend sind die weiteren Zeichenregister 902 und die
weiteren Umsetzungskostenregister 903 mit den entsprechend
gemäß den durch die Abbildungslinien 1102 in Fig. 11a
dargestellten Zuordnungen gespeichert.
Fig. 11b zeigt die entsprechende Vorgehensweise und den
entsprechenden gespeicherten Wert in den Zeichenregistern 902
und den Umsetzungskostenregistern 903 für den Ausdruck
"Plätze(sitze)" als erste Zeichenkette 901 und den Ausdruck
"Sitzplatz" als zweite Zeichenkette 904.
Wie Fig. 11b zu entnehmen ist, kann für den Buchstaben "e"
sowie für die Klammern in der ersten Zeichenkette 901 kein
entsprechendes Zeichen in der zweiten Zeichenkette 904
ermittelt werden, weshalb in den entsprechenden weiteren
Zeichenregistern 1106 weiterhin der Initialisierungswert "-1"
gespeichert ist.
In den weiteren Zeichenregistern 1106 zugeordneten weiteren
Umsetzungskostenregistern 1107 bleibt weiterhin der
Initialisierungswert "1" gespeichert.
In einem weiteren Schritt werden ausgehend von den
Positionswerten, die in den Zeichenregistern 102 gespeichert
sind und den den Positionswerten zugeordneten
Umsetzungskostenwerten, die in den Umsetzungskostenregistern
903 gespeichert sind, Ähnlichkeitsfaktoren 907 ermittelt,
unter deren Verwendung ein Ähnlichkeitswert zur Beschreibung
der Ähnlichkeit der ersten Zeichenkette 901 mit der zweiten
Zeichenkette 904 beschrieben wird, wie im Weiteren näher
erläutert wird.
Gemäß diesem Ausführungsbeispiel beschreibt jeder Faktor 907
anschaulich einen semantischen Aspekt, weshalb aus
semantischen Gründen jeweils zwei miteinander zu
vergleichende Zeichenketten einander ähnlich sein können.
Jeder Faktor 907 kann einen positiven und/oder einen
negativen Einfluss auf die gesamte Ähnlichkeit aufweisen.
Es ist in diesem Zusammenhang darauf hinzuweisen, dass
grundsätzlich jeder Faktor 907, der einen Einfluss auf die
Ähnlichkeit zweier miteinander zu vergleichender
Zeichenketten haben kann, gemäß der Erfindung verwendet
werden kann.
Gemäß diesem Ausführungsbeispiel werden folgende Faktoren 907
gebildet und berücksichtigt:
- - Erster Faktor (F1): relative Größe der zwei
Zeichenketten (vgl. Beispiel in Fig. 10a):
F1 = Min(Len(Wort1), Len(Wort2))/Max(Len(Wort1), Len(Wort2)) = 9/13 = 0,69.
Je größer der "relative Unterschied", das heißt auf die Länge der ersten Zeichenkette bzw. der zweiten Zeichenkette bezogene Unterschied der Länge der zwei Zeichenketten ist, um so geringer ist die gesamte Ähnlichkeit der zwei Zeichenketten.
Gemäß dem Ausführungsbeispiel ist die Differenz der Anzahl von Zeichen, die in den Zeichenketten 901, 904 enthalten sind, 4 (13 - 9 = 4)
Somit ergibt sich ein relativer Unterschied als erster Faktor als 4/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette oder 4/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette; - - Zweiter Faktor (F2) die relative Länge der größten
Überlappung der zwei Zeichenketten (vgl. Beispiel in
Fig. 10a):
F2 = LongestSubsequence(Wort1, Wort2)/Min(Len(Wort1), Len(Wort2)) = 6/9 = 0,66.
Eine Überlappung wird gemäß diesem Ausführungsbeispiel als fortlaufende Sequenz von positiven Nummern, das heißt positiven Positionswerten in den Zeichenregistern 902 identifiziert, da ja für den Fall, dass kein entsprechendes Zeichen in der zweiten Zeichenkette für ein Zeichen der ersten Zeichenkette 901 ermittelt werden konnte, der Initialisierungswert "-1" mit negativem Vorzeichen in dem entsprechenden Zeichenregister 901 gespeichert bleibt, wodurch eine Unterbrechung positiver Positionswerte in den Zeichenregistern 902 erzeugt würde.
Die Länge der größten Überlappung wird gemäß diesem Ausführungsbeispiel relativ zur maximalen Überlappung, das heißt zur Länge der kürzeren Zeichenkette, gebildet.
Je größer die (relative) Überlappung der zwei Zeichenketten 901, 904 ist, um so größer ist die gesamte Ähnlichkeit, das heißt der zu ermittelnde Ähnlichkeitswert.
Gemäß diesem Ausführungsbeispiel ist die größte absolute Überlappung gleich 5 (Teilsequenz "Platz" für den Ausdruck "Sitzplatz" als erste Zeichenkette bzw. für die Teilsequenz "Plätz" für den Ausdruck "Plätze(sitze)".
Somit ergibt sich der zweite Faktor zu 5/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette und zu 5/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette. - - Dritter Faktor (F3): Anteil der fehlenden Zeichen der
ersten Zeichenkette, das heißt der Anteil der Zeichen
der ersten Zeichenkette, für die kein entsprechendes
Zeichen in der zweiten Zeichenkette ermittelt werden
konnte (vgl. Beispiel in Fig. 10a):
F3 = 1 - (NumbMissingLetters(Wort1)/Len(Wort1)) = 1.
Die Anzahl der fehlenden Zeichen entspricht der Anzahl der in den Zeichenregistern 902 gespeicherten Initialisierungswerten "-1" nach erfolgter Eintragung der Zuordnungen, das heißt der Positionswerte in die Zeichenregister 902.
Je größer der Anteil der fehlenden Zeichen ist, um so geringer ist die gesamte Ähnlichkeit der beiden zu vergleichenden Zeichenketten 901, 904.
Gemäß dem Ausführungsbeispiel ist der dritte Faktor gleich 1 für den Ausdruck "Sitzplatz" als erste Zeichenkette und gleich 4 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette. - - Vierter Faktor (F4): Unzusammenhängigkeit (vgl. Beispiel
in Fig. 10a)
F4 = sqrt(1.0 - (NumbSequences(Wort1, Wort2)/Len(Wort1))) = sqrt(1.0 - 1/9) = 0,94.
Die Unzusammenhängigkeit entspricht der Anzahl der Teilsequenzen von Zeichen zwischen den zwei Zeichenketten 901, 904. Der Anfang einer Teilsequenz in einem Zeichenregister 902 kann als positiver Wert, dessen Wert, der nicht um mehr als um einen Wert "1" größer ist als der in dem für das vorangegangene Zeichen der ersten Zeichenkette zugeordneten Zeichenregister 902 ist, ermittelt werden.
Je größer die Anzahl von Teilsequenzen ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 901, 904.
Gemäß dem Ausführungsbeispiel weist der vierte Faktor für beide Beispiele den Wert 0,94 auf. - - Fünfter Faktor (F5): Reihenfolge der Teilsequenzen (vgl.
Beispiel in Fig. 10a):
F5 = sqrt(1.0 - (NumbReversals(wort1, Wort2)/Len(Wort1))) = sqrt(1.0 - 1/9) = 0,94.
Der fünfte Faktor beschreibt, wie konsequent die zweite Zeichenkette die Zeichenreihenfolge der ersten
Zeichenkette einhält, das heißt dieser entspricht.
Ein Wechsel in der Reihenfolge wird in den Zeichenregistern 902 als positiver Wert identifiziert, der kleiner ist als der letzte positive Wert, der in einem vorangegangenen, das heißt einem vorangegangenen Zeichen innerhalb der ersten Zeichenkette zugeordneten Zeichenregister 902 gespeicherten Wert ist.
Initialisierungswerte mit dem Wert "-1", die in dem Zeichenregister 902 noch gespeichert sind, die zwischen den zwei positiven Werten liegen, werden im Rahmen der Ermittlung des fünften Faktors gemäß diesem Ausführungsbeispiel ignoriert.
Je größer die Anzahl von "Reihenfolgeumkehrungen" ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 901, 904. - - Sechster Faktor (F6): Der erste Buchstabe beider
Zeichenketten 901, 904 ist gleich (vgl. Beispiel in
Fig. 10a):
F6 = 1,5 wenn Erste(Wort1) = = Erste(Wort2) sonst 1.
Wenn die ersten Zeichen der zwei Zeichenketten 901, 904 einander zugeordnet sind, das heißt wenn der Wert des ersten Buchstabe des Zeichenregisters 1101 den Wert "0" aufweist, wird die gesamte Ähnlichkeit, das heißt der Ähnlichkeitswert erhöht. - - Siebter Faktor (F7): Umsetzungskosten (vgl. Beispiel in
Fig. 10a):
F7 = 1 - (Summe(Umsetzungskostenregister)/Len(Wort1) = 1 - (1.5/9) = 0,83.
Der siebte Faktor wird aus den Werten, die in den Umsetzungskostenregistern 903, das heißt den Umsetzungskostenwerten, berechnet.
Je größer die Umsetzungskostenwerte sind, um so kleiner ist die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten. - - Achter Faktor (F8): Eine Zeichenkette ist Teilkette der
anderen Zeichenkette (vgl. Beispiel in Fig. 10a):
wenn LongestSubsequence(Wort1, Wort2) = = Len(Wort1) F8 = Sqrt (F1)
sonst
F8 = F1 = 9/13 = 0,69.
Der achte Faktor bedeutet anschaulich, dass die Länge der größten Überlappung (vgl. zweiter Faktor) gleich der Länge der kürzeren Zeichenkette ist.
In diesem Fall wird die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten erhöht.
Die oben beschriebenen Faktoren 907 werden berücksichtigt, um
einen Ähnlichkeitswert A 908 zu ermitteln. Der
Ähnlichkeitswert A 908 wird gemäß dem vorliegenden
Ausführungsbeispiel gemäß folgender Vorschrift ermittelt:
Zum Beispiel (vgl. Beispiel in Fig. 10a)
Zum Beispiel (vgl. Beispiel in Fig. 10a)
Ähnlichkeit(Wort1, Wort2) = F2.F3.F4.F5.F.F7.F8 =
0,66.1.0,94.0,94.1.0,83.0,69 = 0,33
Es ist in diesem Zusammenhang anzumerken, dass die einzelnen
Faktoren 907 grundsätzlich beliebig gewichtet werden können,
abhängig von der jeweiligen Anwendung.
Auch kann grundsätzlich jede geeignete Funktion verwendet
werden, um den Ähnlichkeitswert A 908 zu bilden.
Gemäß Vorschrift (1) weist der gebildete Ähnlichkeitswert A
908 einen absoluten Wert auf, der insbesondere im Vergleich
mit einem weiteren Ähnlichkeitswert A 908 den Aussagegehalt
hat, dass die jeweiligen Zeichenketten dann einander
ähnlicher sind als andere Zeichenketten, für die der weitere
Ähnlichkeitswert A 908 gebildet wurde, wenn ein
Ähnlichkeitswert A 908 größer ist als ein weiterer
Ähnlichkeitswert.
Es ist jedoch aufgrund des Ähnlichkeitswerts A 908 noch keine
statistische Aussage darüber möglich, wie ähnlich die beiden
verglichenen Zeichenketten einander tatsächlich sind.
Um einen für einen Benutzer anschaulicheren Wert in Form
einer Übereinstimmungswahrscheinlichkeit darzustellen, wird
eine Konvertierungsfunktionenschar 1201 verwendet, wie sie in
Fig. 12 dargestellt ist.
Mittels der Konvertierungsfunktionenschar 1201 wird jeweils
der ermittelte Ähnlichkeitswert 1202 in einen
Wahrscheinlichkeitswert 1203 umgewandelt (Block 908 in
Fig. 9).
Gemäß diesem Ausführungsbeispiel sind die erzeugten
Wahrscheinlichkeitswerte in folgendem Sinne zu
interpretieren:
- - Wahrscheinlichkeitswert = 0.9000 (1203):
1 von 10 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - Wahrscheinlichkeitswert = 0.9900 (1203):
1 von 100 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - Wahrscheinlichkeitswert = 0.9990 (1203):
1 von 1000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - Wahrscheinlichkeitswert = 0.9999 (1203):
1 von 10000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein; - - usw.
Wie in Fig. 12 dargestellt ist, wird die
Konvertierungsfunktionenschar 1201 gebildet aus einer Schar
unterschiedlicher Konvertierungsfunktionen 1204, 1205, 1206,
1207, 1208, die eine unterschiedliche Abbildungsfunktion
darstellen abhängig von der Länge der jeweiligen Zeichenkette
als Scharparameter.
Die Konvertierungsfunktionenschar 1201 kann bei Existenz
einer Vielzahl technischer elektronischer Dokumente, die in
dem Speicher 206 des Computers 209 gespeichert sind, mittels
statistischer Analysen approximiert werden.
Eine Vielzahl von Zeichenkettenpaaren werden in diesem Fall
zufällig aus den technischen Dokumenten ausgewählt.
Die Ähnlichkeit jedes Zeichenkettenpaaren wird berechnet und
die Frequenz jedes Ähnlichkeitswerts A 908 wird gespeichert.
Verschiedene Zeichenkettenlängen können verschiedene
Konvertierungsfunktionen 1204, 1205, 1206, 1207, 1208
benötigen, weshalb die Vielzahl von Konvertierungsfunktionen
1204, 1205, 1206, 1207, 1208 abhängig von der
Zeichenkettenlänge als Scharparameter eingesetzt werden.
Die Konvertierungsfunktionen 1204, 1205, 1206, 1207, 1208
können auch sprachenabhängig, das heißt für die Sprache
Deutsch, Englisch, Französisch usw. unterschiedlich
ausgestaltet und der entsprechend eingesetzten Sprache
angepasst werden.
Gemäß dem vorliegenden Ausführungsbeispiel wird folgende
Konvertierungsfunktionenschar 1201 eingesetzt:
Wahrscheinlichkeit = K(Len(Wort1)) +
((1 - K(Len(Wort1)).exp(Ähnlichkeit, P(Len(Wort1)) )
Wobei K und P über statistische Mittel für eine bestimmte
Wortlänge festgelegt sind.
Es hat sich ein Wahrscheinlichkeitswert von ≧ 0.999 als eine
geeignete Grenze bei dem Einsatz des Verfahrens im Rahmen der
Texterkennung für die tatsächliche Übereinstimmung der beiden
Zeichenketten erwiesen.
Dies entspricht gemäß dem Ausführungsbeispiel einem
Ähnlichkeitswert A 908 von ungefähr 0.4.
Gemäß einer alternativen Ausgestaltung der Erfindung ist der
Erkenntnis Rechnung getragen worden, dass in vielen
natürlichen Sprachen gewisse Sequenzen von Zeichen,
insbesondere von Buchstaben, häufig vorkommen, die somit bei
einem spezifischen Vergleich zweier Zeichenketten
hinsichtlich ihrer spezifischen Ähnlichkeit nur einen
geringen Informationsgehalt aufweisen.
Beispiele dafür sind Wortendungen wie "ung" und "keit" in der
deutschen Sprache oder auch Buchstabensequenzen wie "ment",
"sion" und "tion" in der englischen Sprache.
Solche Buchstabensequenzen können für die
Wortähnlichkeitsfunktionen problematisch sein, da in diesem
Fall nur oberflächliche Merkmale betrachtet werden, weil sie
einen hohen Ähnlichkeitswert für Wortpaare, die keine tiefere
Ähnlichkeit zueinander aufweisen, verursachen können.
Aufgrund dieser Erkenntnis ist es gemäß einer Ausgestaltung
der Erfindung vorgesehen, solche Buchstabensequenzen,
beispielsweise mittels statistischer Analysen
(Häufigkeitsanalyse) in den gespeicherten technischen
Dokumenten zu ermitteln und für die ermittelten,
beispielsweise für die am häufigsten vorkommenden
Buchstabenkombinationen diese als einzelnes logisches Zeichen
zu betrachten und innerhalb des Verfahrens zum Bilden der
Ähnlichkeitswerte und der entsprechenden Register zu
berücksichtigen.
In diesem Fall wird die Länge der entsprechenden
Zeichenketten und die Anzahl der verwendeten Zeichenregister
902 und Umsetzungskostenregister 903 entsprechend angepasst.
Die ermittelte Ähnlichkeit zwischen zwei alphabetischen
Zeichenketten misst die relative Größe der Überlappung
bezüglich des Ähnlichkeitskriteriums.
Die Ähnlichkeit zwischen rein numerischen Begriffen
beschreibt den relativen Wertunterschied zwischen den
numerischen Basisbegriffen.
Das jeweils berücksichtigte Basisbegriffs-Paar wird
entsprechend der zuvor beschriebenen Vorgehensweise
generalisiert zu einem Zwischenbegriff.
Der Generalisierungsprozess erfolgt gemäß diesem
Ausführungsbeispiel so lange, bis kein Paar von
Basisbegriffen, kein Paar von Basisbegriff-Zwischenbegriff
bzw. kein Paar von Zwischenbegriffen mehr existiert, das noch
nicht generalisiert ist, alternativ deren Ähnlichkeit nicht
größer ist als ein vorgegebener Schwellenwert.
Fig. 4 zeigt anschaulich die Ermittlung einer Begriffs-
Vergleichsstruktur 400, die aus drei Textbeispielen 401, 402,
403 sowie einem neuen Textbeispiel 404 gebildet wird.
Jedes Textbeispiel 401, 402, 403 stellt einen Fall dar, der
im Rahmen des fallbasierten Schließens zur Ermittlung eines
Begriffs und eventuell zur Klassifikation eines
elektronischen Dokuments verwendet wird.
Fig. 4 zeigt ferner in der Begriffs-Vergleichsstruktur 400
Basisbegriffe 405, die jeweils aus den Textbeispielen 401,
402, 403 gebildet worden sind.
Durch Linien 406 wird jeweils angegeben, aus welchem
Textbeispiel 401, 402, 403 der jeweilige Basisbegriff 405
gebildet wurde.
Jedes Textbeispiel 401, 402, 403 weist drei Teile auf:
- - Einen Kernbereich, das heißt einen Textbereich, der den entsprechenden Begriff, das heißt das aktuell betrachtete Konzept mit ausreichender Genauigkeit abdeckt;
- - einen Vorkernbereich, das heißt einen Textbereich, der unmittelbar vor dem Kernbereich in dem Textbeispiel liegt;
- - einen Nachkernbereich, das heißt einen Textbereich, der unmittelbar nach dem Kernbereich in dem jeweiligen Textbeispiel angeordnet ist.
Jeder dieser Teile eines Textbeispiels, das heißt der
Kernbereich, der Vorkernbereich und der Nachkernbereich,
enthält Informationen, die für die Erkennung eines Begriffs,
das heißt des Konzepts, wichtig sind.
Die Länge der Teile, das heißt die Anzahl der in dem
jeweiligen Teil enthaltenen Worte und/oder Nummern ist gemäß
der Erfindung nicht beschränkt.
Der Kernbereich muss mindestens ein Wort, das heißt eine
alphabetische Zeichenfolge und/oder eine numerische Angabe,
das heißt eine numerische Zeichenfolge enthalten.
Aus diesem Grund kann ein Klassifizierer für die Erkennung
von einfachen Zeichenfolgen, wie zum Beispiel einer
Kombination aus Nummern und Worten, bis zur Klassifizierung
von größeren Textteilen mit einer Mehrzahl oder Vielzahl von
alphanumerischen oder numerischen Zeichenfolgen eingesetzt
werden.
Es ist jeweils eine Linie 406 verbunden mit einem
Basisbegriff 405 und demjenigen Textbeispiel 401, 402, 403,
aus dem der jeweilige Basisbegriff 405 extrahiert worden ist.
Soll nun geprüft werden, ob ein neues Textbeispiel 404 als
neuer Fall 407 zu den in der Datenbank zuvor gespeicherten
Fällen 408, das heißt dem ersten Textbeispiel 401, dem
zweiten Textbeispiel 402, dem dritten Textbeispiel 403
hinzufügt wird, so werden gemäß der im Zusammenhang mit Fig. 3
dargelegten Vorgehensweise weitere Basisbegriffe 409 aus dem
neuen Textbeispiel 404 ermittelt, die in ausreichender Weise
mit einem Basisbegriff 405 aus den gespeicherten Fällen 408
übereinstimmen.
Gemäß diesem Ausführungsbeispiel ist der Ausdruck
"3,5 Sekunden" dem Ausdruck "0,5 Sekunden" des ersten
Textbeispiels 401 relativ ähnlich.
Aus den Basisbegriffen 405 werden Zwischenbegriffe gemäß der
zuvor beschriebenen Vorgehensweise ermittelt, gemäß diesem
Ausführungsbeispiel aus den Basisbegriffen
"Systemantwortzeit", "Nachhallzeit", "Fahrzeugbetriebszeit"
ein erster Zwischenbegriff 409 mit dem Zwischenbegriffskern
"zeit" und dem Vorkernwert "16" und dem Nachkernwert "0"
sowie ein zweiter Zwischenbegriff 410 aus den Basisbegriffen
"soll" und "sollte", der den Zwischenbegriffskern "soll" und
den Nachkernwert "2" aufweist.
Für jedes neu zu berücksichtigende elektronische Dokument
bzw. Textbeispiel wird in einer weiteren Phase die Begriffs-
Vergleichsstruktur 400 dazu verwendet, um alle Instanzen der
entsprechenden Begriffe zu finden, die innerhalb des neuen
elektronischen Dokuments vorkommen.
Ein zyklischer Prozess wird durchgeführt vom Anfang bis zum
Ende des neu hinzugefügten elektronischen Dokuments bzw.
Für jede Textstelle, das heißt für jedes Wort oder jeden
numerischen Wert des elektronischen Dokuments wird ein
Plausibilitätstest ausgeführt.
Der Plausibilitätstest vergleicht jedes Wort oder jeden
numerischen Wert der Textstelle mit jedem Basisbegriff oder
Zwischenbegriff des fallbasierten Systems, das heißt der
Begriffs-Vergleichsstruktur 400, um herauszufinden, ob die
Textstelle, das heißt das jeweilige Wort oder der jeweilige
numerische Wert einem Basisbegriff oder einem Zwischenbegriff
zugeordnet werden kann, das oder der zu einem
Zwischenbegriffskern gehört.
Wenn der Plausibilitätstest erfolgreich ist, werden mehrere
Fälle aus der betrachteten Textstelle des neuen
elektronischen Dokuments temporär generiert.
Diese Fälle werden mit den gespeicherten Fällen 408
verglichen, die in der Datenbank des fallbasierten Systems
gespeichert sind, das heißt in der Begriffs-
Vergleichsstruktur 400 schon berücksichtigt sind, um eine
Klassifizierungsentscheidung treffen zu können, ob ein
temporär generierter Fall 409 mit einem gespeicherten Fall
408 übereinstimmt.
Für jeden neuen Fall 407 werden diejenigen gespeicherten
Fälle 408 ermittelt, deren Ähnlichkeit hinsichtlich der
folgenden Faktoren größer ist als ein vorgegebener
Schwellenwert:
- - Wie viele Basisbegriffe und/oder Zwischenbegriffe sind in beiden Fällen 407, 408 enthalten?
- - Wo liegen die Basisbegriffe in den beiden Fällen 407, 408, das heißt anschaulich, was ist der Abstand zu dem jeweiligen Kernbereich des Falls 408?
- - Ist die Reihenfolge der berücksichtigten Basisbegriffe in den zwei Fällen 407, 408 gleich?
Verglichen mit den Verfahren gemäß dem Stand der Technik, wie
beispielsweise den Regellernverfahren, werden die oben
beschriebenen Faktoren als Präferenzen anstatt als starke
Einschränkungen behandelt.
Ein neuer Fall 407 wird somit temporär in die Datenbank, das
heißt die Begriffs-Vergleichsstruktur des fallbasierten
Systems eingetragen.
Für jedes Wort und für jede Nummer, die aus dem neuen
Textbeispiel des neuen Falls 407 extrahiert werden, wird das
entsprechend ähnliche Wort bzw. die ähnliche Nummer aus einem
anderen Textbeispiel ermittelt.
Der entsprechende Basisbegriff muss nicht identisch mit dem
ursprünglichen Basisbegriff oder Zwischenbegriff aus dem
zuvor gespeicherten Textbeispiel 401, 402, 403 sein.
Gemäß diesem Ausführungsbeispiel ist es ausreichend, dass das
Wort "Sekunden" dem Wort "Sekunde" aus dem Kernbereich des
ersten Textbeispiels 401 ausreichend ähnlich ist sowie der
Zahlenwert "3,5" aus dem neuen Textbeispiel 404 ausreichend
ähnlich ist zu dem Zahlenwert "0,5" des Kernbereichs des
ersten Textbeispiels 401.
Es ist in diesem Zusammenhang anzumerken, dass nicht nur ein
Vergleich mit Basisbegriffen, sondern auch ein Vergleich mit
Zwischenbegriffen möglich ist.
Ferner ist es alternativ vorgesehen, dass für den Fall, dass
kein entsprechender Basisbegriff oder Zwischenbegriff zu
einem aus einem neuen Textbeispiel extrahierten Zeichenfolge
existiert, diese Zeichenfolge nicht gespeichert wird.
So werden beispielsweise Stoppwörter, das heißt Wörter, die
keine statistische Vorhersagerelevanz aufweisen, nicht in der
Begriffs-Vergleichsstruktur 400 gespeichert.
Nach dem Speichern des neuen Falles 407 in die Datenbank das
fallbasierten Systems werden ähnliche Fälle gemäß folgender
Vorgehensweise ermittelt.
Zuerst wird ein Aktivationswert für jeden Basisbegriff des
neuen Falls 407 initialisiert.
Die Größe dieses Aktivationswerts hängt gemäß diesem
Ausführungsbeispiel von folgenden drei Faktoren ab:
- - Das ursprüngliche Gewicht des Basisbegriffs, das die Vorhersagerelevanz bestimmt;
- - ein Positionsgewicht innerhalb des jeweiligen Falls; das Positionsgewicht entspricht 1 für Basisbegriffe, die innerhalb des Kernbereichs des Textbeispiels vorkommen. Sonst tendiert das Positionsgewicht zu dem Wert "0" mit wachsendem Abstand des Basisbegriffs von dem Kernbereich des Textbeispiels;
- - ein Ähnlichkeitswert, der beschreibt, wie ähnlich der Basisbegriff dem jeweiligen Basisbegriff eines zuvor gespeicherten Textbeispiels ist.
Fig. 5 zeigt für ein Textbeispiel 500, für den Vorkernbereich
501, den Kernbereich 502 sowie den Nachkernbereich 503 den
Verlauf der Positionsgewichtfunktion 504.
In dem Kernbereich 502 weist die Positionsgewichtfunktion 504
den Wert 1 auf.
Ausgehend von dem Kernbereich 502 fällt die
Positionsgewichtungsfunktion monoton, vorzugsweise streng
monoton, in Richtung sowohl des Vorkernbereichs 501, als auch
des Nachkernbereichs 503 bis auf den Wert 0.
Jeder Aktivationswert enthält gemäß diesem
Ausführungsbeispiel ferner einen Positionsindex, der die
relative Position des entsprechenden Basisbegriffs innerhalb
des neuen Falls, das heißt innerhalb des neuen Textbeispiels
401 spezifiziert.
So weist beispielsweise der erste Basisbegriff des
Vorkernbereichs 501 einen Positionsindex mit dem Wert "0"
auf, ein zweites Element des Vorkernbereichs 502 den
Positionsindex "1", usw.
Durch Einsatz des Positionsindex ist es möglich, die
Reihenfolge der Basisbegriffe im Weiteren zu berücksichtigen.
In einem weiteren Schritt werden die Aktivationswerte
innerhalb der Begriffs-Vergleichsstruktur propagiert, wie in
Fig. 6 dargestellt.
Im Rahmen der Propagierung wird jeweils ein übereinstimmender
Basisbegriff bzw. Zwischenbegriff mit dem Aktivationswert "1"
zugeordnet und jedem einer in Richtung des Textbeispiels
untergeordneten Hierarchieebene der Begriffs-
Vergleichsstruktur wird jeweils ein Aktivationswert
zugeordnet, der um einen vorgebbaren Wert, gemäß diesem
Ausführungsbeispiel einem Wert 1 inkrementiert wird,
zugeordnet, wenn der entsprechende Zwischenbegrift oder
Basisbegriff mit demjenigen Begriff, dem ein Aktivationswert
mit dem Wert "1" zugeordnet ist, über eine
Verbindungsstruktur 411, 406 verbunden ist.
So weist gemäß diesem Ausführungsbeispiel der erste
Zwischenbegriff "<16< Zeit <0<" den Aktivationswert 1 auf,
ebenso wie die Basisbegriffe "Sekunden" und "0,5".
Den über erste Verbindungen 411 mit dem ersten
Zwischenbegriff 409 gekoppelten Basisbegriffen
"Systemantwortzeit", "Nachhallzeit", "Fahrzeugbetriebszeit"
wird ein erster propagierter Aktivationswert mit dem Wert "2"
zugeordnet.
Weiterhin wird den Textbeispielen 401, 402, 403, die mit den
mit einem Aktivationswert zugeordneten Basisbegriffen über
eine weitere Kopplung 406 gekoppelt sind, ein zweiter
propagierter Aktivationswert zugewiesen, gemäß diesem
Ausführungsbeispiel mit dem Wert "3".
Anschaulich wird der Wert des jeweiligen Aktivationswerts
größer mit wachsender Distanz des entsprechenden
Zwischenbegriffs bzw. Basisbegriffs innerhalb der Hierarchie
der Begriffs-Vergleichsstruktur.
Bei der Bildung des zweiten propagierten Aktivationswertes
wird die Reihenfolge der entsprechenden Basisbegriffe
berücksichtigt, das heißt es folgt eine lokale Propagierung.
Die Aktivation, die aus dem neuen Fall entsteht, wird von
jedem Basisbegriff des ermittelten Textbeispiels 401, 402,
403 zu dem nachfolgenden Basisbegriff des neuen Textbeispiels
404 propagiert.
So wird beispielsweise die Aktivation, die am ersten
Basisbegriff des Vorkernbereichs eines berücksichtigten
Textbeispiels 401, 402, 403 liegt, zu dem zweiten
Basisbegriff des Vorkernbereichs geschickt.
Die Größe der Wirkung auf die Aktivation, die im
nachfolgenden Basisbegriff liegt, hängt von folgenden zwei
Faktoren ab:
- - Der Größe der Aktivation im ersten Basisbegriff, und
- - der relativen Position der zwei Aktivationen zueinander, wie sie in den Positionsindizes beschrieben werden.
Die maximale Aktivation fließt dann, wenn die Reihenfolge der
Aktivationspositionen genau übereinstimmt, beispielsweise die
Aktivation mit Positionsindex 0 wird zur Aktivation mit
Positionsindex 1 propagiert.
Der Aktivationsfluss wird kleiner mit wachsenden Abstand
zwischen den Positionsindizes, beispielsweise:
Ein erster Aktivationsfluss von Positionsindex 0 zu Positionsindex 3 ist kleiner als ein zweiter Aktivationsfluss des Positionsindex 0 zu Positionsindex 2, welcher zweite Aktivationsfluss wiederum kleiner ist als ein dritter Aktivationsfluss von dem Positionsindex 0 zu dem Positionsindex 1.
Ein erster Aktivationsfluss von Positionsindex 0 zu Positionsindex 3 ist kleiner als ein zweiter Aktivationsfluss des Positionsindex 0 zu Positionsindex 2, welcher zweite Aktivationsfluss wiederum kleiner ist als ein dritter Aktivationsfluss von dem Positionsindex 0 zu dem Positionsindex 1.
Wenn die Reihenfolge der Aktivationen umgekehrt ist, das
heißt der Positionsindex des zweiten Basisbegriffs kleiner
ist oder gleich ist dem Positionsindex des ersten
Basisbegriffs, wird die Größe des Aktivationsflusses gemäß
diesem Ausführungsbeispiel erheblich reduziert, was
anschaulich bedeutet, dass ein vierter Aktivationsfluss von
dem Positionsindex 1 zu dem Positionsindex 0 kleiner ist als
ein fünfter Aktivationsfluss von dem Positionsindex 0 zu dem
Positionsindex 0, welcher fünfte Aktivationsfluss wiederum
kleiner ist als ein sechster Aktivationsfluss von dem
Positionsindex 0 zu dem Positionsindex 1.
Die lokale Propagierung von Aktivationen ist vorteilhaft,
weil sie die sequentielle Beziehung zwischen
unterschiedlichen Basisbegriffen bzw. Zwischenbegriffen eines
Falls wieder aufbaut.
Am Ende des Aktivierungsvorgangs liegt für jedes Textbeispiel
401, 402, 403, der in der Datenbank des fallbasierten Systems
gespeichert ist, eine Aktivationsverteilung vor.
Jede Aktivationsverteilung wird in einem einzelnen
Aktivations-Ähnlichkeitswert zusammengefasst, wie in Fig. 6
als Aktivations-Ähnlichkeitswert 601 dargestellt ist.
Der Aktivations-Ähnlichkeitswert 600 ergibt sich gemäß
folgender Vorschrift:
Ein Fall F (z. B. 401, 402, oder 403) aus der Fallbasis habe die n Terme T1, . . ., Tn. Dabei ist die Reihenfolge der Terme definiert durch die Reihenfolge, wie sie im Fall F auftreten
Ein Fall F (z. B. 401, 402, oder 403) aus der Fallbasis habe die n Terme T1, . . ., Tn. Dabei ist die Reihenfolge der Terme definiert durch die Reihenfolge, wie sie im Fall F auftreten
Für einen Term Ti wird mit Act(Ti) der Activationswert zu
diesem Term bezeichnet.
Im folgenden wird beschrieben, wie über diese
Activationswerte innerhalb des Falles F propagiert wird, um
für jeden dieser Terme neue Activationswerte zu berechnen,
mit denen abschließend der Activationsähnlichkeitswert des
Falles berechnet wird.
Die Propagierung innerhalb des Falles geschieht mit Hilfe des
folgenden iterativen Verfahrens:
Zum Start des Verfahrens erhalten die Activationswerte Act(Ti) als Initialwerte die Werte, die durch Propagierung von dem neuen Fall (404) über die Begriffsvergleichsstruktur zum jetzt betrachteten Fall F ermittelt wurden. D. h. die zuvor berechnete Activationsverteilung bildet die Initialwerte für die Propagierung innerhalb des Falles.
Zum Start des Verfahrens erhalten die Activationswerte Act(Ti) als Initialwerte die Werte, die durch Propagierung von dem neuen Fall (404) über die Begriffsvergleichsstruktur zum jetzt betrachteten Fall F ermittelt wurden. D. h. die zuvor berechnete Activationsverteilung bildet die Initialwerte für die Propagierung innerhalb des Falles.
Die Activation wird von Term T1 zu T2 propagiert, von T2 zu
T3 propagiert, usw.
Ti - 1 popagiert den Wert ActInc(Ti - 1) zu Ti wobei gesetzt
wird:
ActInc (Ti - 1) = Inference(C1.Act(Ti - 1), Ti - 1, Ti)
0 < C1 < 1 - C1 ist eine Konstante
0 < C1 < 1 - C1 ist eine Konstante
Inference ist eine Skalierungsfunktion, die noch
beschrieben wird.
beschrieben wird.
In der Praxis hat sich z. B. der Wert 0,2 für C1 als tauglich
erwiesen.
Als Inferencefunktion wird benutzt (siehe auch [7]):
Inference(A, Ti - 1, Ti) = A.(C2/(1 + C3.
Distance(Colour(Act(Ti - 1)), Colour(Act((Ti)))).
C2 und C3 sind Konstanten, z. B. C2 = 1,5 und C3 = 0,5
Distance(x, y) = |x - y|, wenn x <= y, unendlich für x < y
Colour(Act (Ti)) = relative Position des Terms des Falls 404,
von welcher die Activation vor der Propagierung durch die
Begriffsvergleichsstruktur stammt. relative Position des
ersten Terms = 1, des zweiten = 2 usw.
Ti kombinert die neue Activation Actlnc(Ti - 1) mit seiner
eigenen Activation:
Act-neu(Ti) = Act-alt(Ti) + ((1 - Act-alt(Ti)).ActInc(Ti - 1))
Mit Hilfe dieser Vorschriften kann nun von T1 bis Tn
propagiert werden. Es entstehen für alle Terme neue
Aktivationswerte Act-neu(T1), . . ., Act-neu(Tn). Damit ist eine
Iteration abgeschlossen.
Es hat sich als zweckmäßig erwiesen, die Iteration mit diesen
neuen Aktivationswerten als Initialwerte zu wiederholen.
Zum Beispiel ergaben 5 Iterationen sehr gute
Activationswerte. Die abschließenden Aktivationswerte Act-
final(T1), . . .Act-final(Tn) nach der letzten Iteration werden
nun benutzt, um den Activationsähnlichkeitswert für den Fall
zu berechnen.
Es hat jeder Term T1 ein Gewicht Wi. Dann ergibt sich:
Aktivationsähnlichkeitswert (F) = Summe(Act-final(Ti).Wi)/
Summe (Wi)
Gemäß diesem Ausführungsbeispiel werden die einzelnen
Aktivationswerte aufsummiert.
Das Aufsummieren wird anschließend normalisiert auf die Basis
der Summe der Gewichte der Basisbegriffe, die in beiden
berücksichtigten Textbeispielen 401, 402, 403 bzw. 404
vorliegen.
Aufgrund der ermittelten Aktivations-Ähnlichkeitswerte 600
werden die Textbeispiele 401, 402, 403, die in der Datenbank
des fallbasierten Systems als Fälle 408 gespeichert sind,
geordnet.
Die Entscheidung, ob das neue Textbeispiel 404 als neuer Fall
407 eine Instanz eines bestimmten Konzepts, das heißt einem
Begriff ist, wird auf Basis der Fälle 407, die die größten
Aktivations-Ähnlichkeitswerte zugewiesen bekommen haben,
getroffen.
Wenn beispielsweise der Aktivations-Ähnlichkeitswert des
ersten Falls 401 größer ist als ein vorgegebener
Schwellenwert, so wird das neue Textbeispiel 404 als eine
Instanz des betrachteten Konzepts klassifiziert und als neuer
Fall 407 in der Datenbank zur Charakterisierung des Konzepts
gespeichert.
Ist der Aktivations-Ähnlichkeitswert jedoch nicht größer als
der vorgegebene Schwellenwert, wird das neue Textbeispiel 404
nicht als eine Instanz des Konzepts betrachtet und somit
nicht als neuer Fall 407 in der Datenbank des fallbasierten
Systems gespeichert.
Der Schwellenwert wird gemäß diesem Ausführungsbeispiel
automatisch von dem fallbasierten System am Ende der
Trainingsphase ermittelt.
Die Aktivations-Ähnlichkeitswerte jedes Falls 401, 402, 403,
der in der Datenbank gespeichert ist, zu jedem anderen Fall,
wird gemäß dem oben beschriebenen Verfahrens des
Aktivierungsprozesses erstellt.
Auf diese Weise kann eine durchschnittliche interne
Ähnlichkeit innerhalb des fallbasierten Systems ermittelt
werden.
Trotzdem bleibt der Vorteil, dass der Schwellenwert
veränderbar ist, um ihn an die Anforderungen einer
spezifischen Anwendung anzupassen, bestehen.
Eine Vergrößerung des Schwellenwerts bewirkt eine bessere
Präzision des fallbasierten Systems, das heißt, es werden nur
eine geringe Anzahl falscher Instanzen eines Konzepts in
einem neuen elektronischen Dokument gefunden.
Umgekehrt reduziert eine Verringerung des Schwellenwerts die
Gefahr, dass eine tatsächliche Instanz des betrachteten
Konzepts in einem neuen elektronischen Dokument nicht als
Instanz in der Datenbank gespeichert wird.
Für jeden Fall wird von dem fallbasierten System jeweils ein
Klassifikationswert ermittelt, mit dem angegeben wird, wie
sicher die Klassifikation des jeweiligen neuen Falles 404
ist, das heißt wie weit sich der ermittelte Aktivations-
Ähnlichkeitswert oberhalb bzw. unterhalb des Schwellenwerts
befindet.
Der Klassifikationswert wird jeweils für spätere Suchen und
Klassifikationen weiterer Dokumente verwendet.
Es ist in diesem Zusammenhang anzumerken, dass auch eine
Unähnlichkeit zweier Textbeispiele im Rahmen der
Gesamtbetrachtung berücksichtigt werden kann.
Fig. 7 zeigt zusammengefasst die gesamte Vorgehensweise gemäß
einem Ausführungsbeispiel der Erfindung.
Für n Konzepte, das heißt Begriffe, wird aus Trainingsdaten
700 für jedes Konzept (Block 701) das fallbasierte System
trainiert (Block 702).
Die ermittelten Fälle des fallbasierten Systems gemäß dem
Trainingsverfahren wird in einer Datenbank 703 des
fallbasierten Systems gespeichert.
Für ein neues elektronisches Dokument 704 wird für jedes in
der Datenbank 703 gespeicherte Konzept und unter Verwendung
der jeweils in der Datenbank 703 gespeicherten Fälle
(Block 705) ermittelt, ob die entsprechenden Textelemente in
dem neuen elektronischen Dokument 704 eine Instanz sind, des
jeweiligen berücksichtigten Konzepts (Block 706) und falls
dies der Fall ist, so wird der entsprechende Textbereich als
neuer Fall in der Datenbank 703 als neuer Fall gespeichert.
Fig. 8 zeigt in einem Überblick die Vorgehensweise einer im
Rahmen einer Trainingsphase zum Trainieren des fallbasierten
Systems für ein einzelnes Konzept.
Unter Verwendung für die Trainingsphase berücksichtigter
elektronischer Dokumente 801 werden in einem ersten Schritt
(Schritt 802) Basisbegriffe extrahiert und in einem weiteren
Schritt (Schritt 803) gewichtet.
In einem weiteren Schritt (Schritt 804) werden die
Basisbegriffe zu Zwischenbegriffen gemäß dem oben
beschriebenen Vorgehen generalisiert und es werden Fälle
erzeugt, das heißt Textbeispiele aus den elektronischen
Dokumenten 801 extrahiert (Schritt 805).
Für die generierten Textbeispiele wird jeweils gemäß dem oben
beschriebenen Vorgehen untersucht, ob das jeweilige
Textbeispiel ein Fall ist, dessen Aktivations-
Ähnlichkeitswert größer ist als der vorgegebene Schwellenwert
und somit als ein das jeweilige Konzept charakterisierendes
Textbeispiel, das heißt Fall, in der Datenbank 806
gespeichert wird.
In einem letzten Schritt (Schritt 807) wird der
Schwellenwert ermittelt.
Fig. 1 zeigt in der Anwendungsphase die Vorgehensweise unter
Verwendung der Begriffs-Vergleichsstruktur 100, welche in
einer Datenbank des fallbasierten Systems 101 gespeichert
ist, für ein neues elektronisches Dokument 102, ob das
jeweilige neue elektronische Dokument 102 Fälle enthält, die
ausreichend ähnlich sind mit in dem fallbasierten
gespeicherten Fällen 103, 104, 105.
Für jedes aus dem neuen elektronischen Dokument 102
extrahiertes Wort oder für jede numerische Zeichenfolge
(Block 106) wird untersucht, ob der entsprechende
Basisbegriff ausreichend ähnlich ist einem Bereich eines
Kernbereichs in dem in einem gespeicherten Fall 103, 104, 105
(Prüfschritt 107).
Ist dies nicht der Fall, so wird die Prüfung für ein neues
Wort des neuen elektronischen Dokuments 102 wiederholt.
Ist für einen Begriff jedoch festgestellt worden, dass der
Basisbegriff möglicherweise einem Kernbereich ausreichend
ähnlich ist, so wird für jede mögliche Fallgröße ein neuer
Fall generiert (Schritt 108, 109) und es erfolgt eine
fallbasierte Klassifizierung des neuen Falls (Schritt 110)
gemäß dem oben beschriebenen Verfahren.
Ist die Klassifizierung erfolgreich, was in einem weiteren
Prüfschritt (Schritt 111) überprüft wird, so wird der Fall in
der Datenbank 101 des fallbasierten Systems gespeichert
(Schritt 112).
Ist dies nicht der Fall, so wird ein neuer Fall generiert
(Schritt 109) und es erfolgt wiederum ein Verfahrensschritt
der fallbasierten Klassifizierung des neu generierten Falls
(Schritt 110).
Anschließend wird das Verfahren beendet (Schritt 113).
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] VLSI Circuit Structure for Determining the Edit Distance Between Strings N. Ranganathan and Raghu Sastry, University of South Florida, Center for Microelectronics. US Patent 5,553,272 USF Reference: Ranganathan 93A10
[2] R. Weischedel et al. The PLUM Systems Group, BBN: Description of the PLUM System as Used for MUC-5, Proceedings of the 5th Message Understanding Conference, 1993
[3] R. Gaizauskas et al. University of Sheffield: Description of the LaSIE System as Used for MUC-6, Proceedings of the 6th Message Understanding Conterence, 1995
[4] D. E. Appelt et al. SRI: Description ot the JV-FASTUS System Used tor MUC-5, Proceedings of the 5th Message Understanding Conterence, 1993
[5] A. Dengel et al. OFFICEMAID - A System for Office Mail Analysis, Interpretation and Delivery, Proceedings of DAS94, Kaiserslautern, 1994
[6] C. Cardie, A Case-Based Approach to Knowledge Acquisition tor Domain Specific Sentence Analysis, Proceedings of the 11th National Conference of Artificial Intelligence (AAAI-93), AAAI Press, 1993
[7] Brown, M.: "A Memory Model for Case Retrieval by Activation Passing" - Phd Thesis, The University of Manchester, 1993
[1] VLSI Circuit Structure for Determining the Edit Distance Between Strings N. Ranganathan and Raghu Sastry, University of South Florida, Center for Microelectronics. US Patent 5,553,272 USF Reference: Ranganathan 93A10
[2] R. Weischedel et al. The PLUM Systems Group, BBN: Description of the PLUM System as Used for MUC-5, Proceedings of the 5th Message Understanding Conference, 1993
[3] R. Gaizauskas et al. University of Sheffield: Description of the LaSIE System as Used for MUC-6, Proceedings of the 6th Message Understanding Conterence, 1995
[4] D. E. Appelt et al. SRI: Description ot the JV-FASTUS System Used tor MUC-5, Proceedings of the 5th Message Understanding Conterence, 1993
[5] A. Dengel et al. OFFICEMAID - A System for Office Mail Analysis, Interpretation and Delivery, Proceedings of DAS94, Kaiserslautern, 1994
[6] C. Cardie, A Case-Based Approach to Knowledge Acquisition tor Domain Specific Sentence Analysis, Proceedings of the 11th National Conference of Artificial Intelligence (AAAI-93), AAAI Press, 1993
[7] Brown, M.: "A Memory Model for Case Retrieval by Activation Passing" - Phd Thesis, The University of Manchester, 1993
Claims (27)
1. Vorrichtung zum Ermitteln einer Begriffs-
Vergleichsstruktur zum Ermitteln von Elementen aus mindestens
einem elektronischen Dokument,
mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
2. Vorrichtung nach Anspruch 1,
bei der der Prozessor derart eingerichtet ist, dass
die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus
den Basisbegriffen.
3. Vorrichtung nach Anspruch 1 oder 2,
bei der der Prozessor derart eingerichtet ist, dass
die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus
Begriffen aus einem elektronischen Thesaurus.
4. Vorrichtung nach einem der Ansprüche 1 bis 3,
bei der der Prozessor derart eingerichtet ist, dass
zumindest ein Teil der vorgegebenen Basisbegriffe aus einem
elektronischen Dokument ermittelt werden.
5. Vorrichtung nach einem der Ansprüche 1 bis 4,
bei der der Prozessor derart eingerichtet ist, dass
der Zwischenbegriff gebildet wird aus der übereinstimmenden Zeichenketten zumindest zweier vorgegebener Begriffe, aus denen der Zwischenbegriff gebildet wird, oder
der Zwischenbegriff gebildet wird aus einem Intervall, das begrenzt wird aus zwei Werteangaben, die durch zumindest zwei vorgegebenen Begriffen beschrieben werden.
der Zwischenbegriff gebildet wird aus der übereinstimmenden Zeichenketten zumindest zweier vorgegebener Begriffe, aus denen der Zwischenbegriff gebildet wird, oder
der Zwischenbegriff gebildet wird aus einem Intervall, das begrenzt wird aus zwei Werteangaben, die durch zumindest zwei vorgegebenen Begriffen beschrieben werden.
6. Vorrichtung nach einem der Ansprüche 1 bis 5,
bei der der Prozessor derart eingerichtet ist, dass
die Begriffs-Vergleichsstruktur hierarchisch strukturiert
wird.
7. Vorrichtung nach einem der Ansprüche 1 bis 6,
bei der der Prozessor derart eingerichtet ist, dass
jedem vorgegebenem Begriff und/oder jedem Zwischenbegriff ein
Aktivationswert zugeordnet wird.
8. Vorrichtung nach Anspruch 7,
bei der der Prozessor derart eingerichtet ist, dass
jedem Zwischenbegriff ein gewichteter Aktivationswert
zugeordnet wird abhängig von den Aktivationswerten der
Begriffe, aus denen der Zwischenbegriff gebildet wird.
9. Vorrichtung nach Anspruch 7 oder 8,
bei der der Prozessor derart eingerichtet ist, dass
jedem Zwischenbegriff ein Aktivationswert zugeordnet wird
abhängig von der Ähnlichkeit der Begriffe, aus denen der
Zwischenbegriff gebildet wird gemäß einem vorgegebenen
Ähnlichkeitskriterium.
10. Vorrichtung zum Ermitteln von Begriffen in einem
elektronischen Dokument,
mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
11. Vorrichtung nach Anspruch 10,
bei der der Prozessor derart eingerichtet ist, dass
die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus
den Basisbegriffen.
12. Vorrichtung nach Anspruch 10 oder 11,
bei der der Prozessor derart eingerichtet ist, dass
die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus
Begriffen aus einem elektronischen Thesaurus.
13. Vorrichtung nach einem der Ansprüche 10 bis 12,
bei der der Prozessor derart eingerichtet ist, dass
zumindest ein Teil der vorgegebenen Basisbegriffe aus einem
elektronischen Dokument ermittelt werden.
14. Vorrichtung nach einem der Ansprüche 10 bis 13,
bei der der Prozessor derart eingerichtet ist, dass
der Zwischenbegriff gebildet wird aus der übereinstimmenden Zeichenketten zumindest zweier vorgegebener Begriffe, aus denen der Zwischenbegriff gebildet wird, oder
der Zwischenbegriff gebildet wird aus einem Intervall, das begrenzt wird aus zwei Werteangaben, die durch zumindest zwei vorgegebenen Begriffen beschrieben werden.
bei der der Prozessor derart eingerichtet ist, dass
der Zwischenbegriff gebildet wird aus der übereinstimmenden Zeichenketten zumindest zweier vorgegebener Begriffe, aus denen der Zwischenbegriff gebildet wird, oder
der Zwischenbegriff gebildet wird aus einem Intervall, das begrenzt wird aus zwei Werteangaben, die durch zumindest zwei vorgegebenen Begriffen beschrieben werden.
15. Vorrichtung nach einem der Ansprüche 10 bis 14,
bei der der Prozessor derart eingerichtet ist, dass
die Begriffs-Vergleichsstruktur hierarchisch strukturiert
wird.
16. Vorrichtung nach einem der Ansprüche 10 bis 15,
bei der der Prozessor derart eingerichtet ist, dass
jedem vorgegebenem Begriff und/oder jedem Zwischenbegriff ein
Aktivationswert zugeordnet wird.
17. Vorrichtung nach Anspruch 16,
bei der der Prozessor derart eingerichtet ist, dass
jedem Zwischenbegriff ein gewichteter Aktivationswert
zugeordnet wird abhängig von den Aktivationswerten der
Begriffe, aus denen der Zwischenbegriff gebildet wird.
18. Vorrichtung nach Anspruch 16 oder 17,
bei der der Prozessor derart eingerichtet ist, dass
jedem Zwischenbegriff ein Aktivationswert zugeordnet wird
abhängig von der Ähnlichkeit der Begriffe, aus denen der
Zwischenbegriff gebildet wird gemäß einem vorgegebenen
Ähnlichkeitskriterium.
19. Vorrichtung nach einem der Ansprüche 16 bis 18,
bei der der Prozessor derart eingerichtet ist, dass
im Rahmen des fallbasierten Schließens für jeden
berücksichtigten Begriff in dem elektronischen Dokument die
den Zwischenwerten zugeordneten Aktivierungswerte
berücksichtigt werden.
20. Vorrichtung nach einem der Ansprüche 16 bis 19,
bei der der Prozessor derart eingerichtet ist, dass
im Rahmen des fallbasierten Schließens für mehrere
berücksichtigte Begriffe ein gemeinsamer Gesamt-
Aktivierungswert ermittelt wird, mit dem beschrieben wird,
wie ähnlich die Gesamtheit der mehreren berücksichtigten
Begriffe zu den jeweiligen vorgegebenen Begriffen bzw. den
Zwischenbegriffen der Begriffs-Vergleichsstruktur sind.
21. Vorrichtung nach Anspruch 20,
bei der der Prozessor derart eingerichtet ist, dass
die Reihenfolge der gemeinsam berücksichtigten Begriffe in
dem elektronischen Dokument sowie der entsprechenden Begriffe
den Zwischenbegriffen der Begriffs-Vergleichsstruktur bei der
Ermittlung des Gesamt-Aktivierungswert berücksichtigt wird.
22. Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur
zum Ermitteln von Elementen aus mindestens einem
elektronischen Dokument,
bei dem aus vorgegebenen Basisbegriffen Zwischenbegriffe ermittelt werden,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
bei dem die Begriffs-Vergleichsstruktur zumindest aus den ermittelten Zwischenbegriffen gebildet wird.
bei dem aus vorgegebenen Basisbegriffen Zwischenbegriffe ermittelt werden,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
bei dem die Begriffs-Vergleichsstruktur zumindest aus den ermittelten Zwischenbegriffen gebildet wird.
23. Verfahren zum Ermitteln von Begriffen in einem
elektronischen Dokument,
bei dem aus vorgegebenen Basisbegriffen Zwischenbegriffe ermittelt werden,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
bei dem die Begriffs-Vergleichsstruktur zumindest aus den ermittelten Zwischenbegriffen gebildet wird,
bei dem unter Verwendung der Begriffs-Vergleichsstruktur mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt werden.
bei dem aus vorgegebenen Basisbegriffen Zwischenbegriffe ermittelt werden,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
bei dem die Begriffs-Vergleichsstruktur zumindest aus den ermittelten Zwischenbegriffen gebildet wird,
bei dem unter Verwendung der Begriffs-Vergleichsstruktur mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt werden.
24. Computerlesbares Speichermedium, in dem ein
Computerprogramm zum Ermitteln einer Begriffs-
Vergleichsstruktur zum Ermitteln von Elementen aus mindestens
einem elektronischen Dokument gespeichert ist, das, wenn es
von einem Prozessor ausgeführt wird, folgende
Verfahrensschritte aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
25. Computerlesbares Speichermedium, in dem ein
Computerprogramm zum Ermitteln von Begriffen in einem
elektronischen Dokument gespeichert ist, das, wenn es von
einem Prozessor ausgeführt wird, folgende Verfahrensschritte
aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
26. Computerprograrmm-Element zum Ermitteln einer Begriffs-
Vergleichsstruktur zum Ermitteln von Elementen aus mindestens
einem elektronischen Dokument, das, wenn es von einem
Prozessor ausgeführt wird, folgende Verfahrensschritte
aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
27. Computerprogramm-Element zum Ermitteln von Begriffen in
einem elektronischen Dokument, das, wenn es von einem
Prozessor ausgeführt wird, folgende Verfahrensschritte
aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10112571A DE10112571A1 (de) | 2001-03-15 | 2001-03-15 | Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10112571A DE10112571A1 (de) | 2001-03-15 | 2001-03-15 | Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10112571A1 true DE10112571A1 (de) | 2002-09-26 |
Family
ID=7677634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10112571A Withdrawn DE10112571A1 (de) | 2001-03-15 | 2001-03-15 | Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10112571A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007010259A1 (de) | 2007-03-02 | 2008-09-04 | Volkswagen Ag | Sensor-Auswertevorrichtung und Verfahren zum Auswerten von Sensorsignalen |
-
2001
- 2001-03-15 DE DE10112571A patent/DE10112571A1/de not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
Longest Common Substring: http//turing.wins.uva. n1/-leen/BOOK/BOOKS/NODE208.HTM, 2. Juni 1997 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007010259A1 (de) | 2007-03-02 | 2008-09-04 | Volkswagen Ag | Sensor-Auswertevorrichtung und Verfahren zum Auswerten von Sensorsignalen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69934371T2 (de) | Apparat und Verfahren zum Verarbeiten einer natürlichen Sprache | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE69432575T2 (de) | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung | |
DE69829389T2 (de) | Textnormalisierung unter verwendung einer kontextfreien grammatik | |
DE69728282T2 (de) | System und verfahren zur extraktion und kodierung von medizinischer fachsprache | |
DE69530816T2 (de) | Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis | |
EP1135767B1 (de) | Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen | |
DE112018000334T5 (de) | System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung | |
DE112007000053T5 (de) | System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung | |
WO2015113578A1 (de) | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text | |
DE112017006151T5 (de) | Anpassbare Verarbeitungskomponenten | |
DE4232507A1 (de) | Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten | |
DE102004046252A1 (de) | Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung | |
DE102013205737A1 (de) | System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen | |
DE102019001267A1 (de) | Dialogartiges System zur Beantwortung von Anfragen | |
DE202005022113U1 (de) | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet | |
DE3901485A1 (de) | Dokumenten-wiedergewinnungssystem | |
DE112018006345T5 (de) | Abrufen von unterstützenden belegen für komplexe antworten | |
DE10308550A1 (de) | System und Verfahren zur automatischen Daten-Prüfung und -Korrektur | |
DE69934195T2 (de) | Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind | |
DE112018005272T5 (de) | Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur | |
DE60101668T2 (de) | Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument | |
DE112020005268T5 (de) | Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache | |
DE102021209171A1 (de) | System zum wählen eines lernenden modells |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8130 | Withdrawal |