DE10112571A1 - Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente - Google Patents

Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente

Info

Publication number
DE10112571A1
DE10112571A1 DE10112571A DE10112571A DE10112571A1 DE 10112571 A1 DE10112571 A1 DE 10112571A1 DE 10112571 A DE10112571 A DE 10112571A DE 10112571 A DE10112571 A DE 10112571A DE 10112571 A1 DE10112571 A1 DE 10112571A1
Authority
DE
Germany
Prior art keywords
terms
term
basic
determined
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10112571A
Other languages
English (en)
Inventor
Michael Brown
Dieter Wissmann
Christiane Foertsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10112571A priority Critical patent/DE10112571A1/de
Publication of DE10112571A1 publication Critical patent/DE10112571A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

Aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt, wobei jeweils ein Zwischenbegriff aus mehreren Basisbegriffen gebildet wird. Jeder Zwischenbegriff enthält zumindest einen Teil eines Basisbegriffs. Die Begriffs-Vergleichsstruktur wird aus den ermittelten Zwischenbegriffen gebildet.

Description

Die Erfindung betrifft eine Vorrichtung und ein Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur, einer Vorrichtung und ein Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument sowie Computerlesbare Speichermedien und Computerprogramm-Elemente
Insbesondere bei der Planung und Durchführung eines großen Industrieprojekts, beispielsweise bei der Entwicklung und dem Bau einer neuen großen Industrieanlage oder eines neuen Kraftwerks, beispielsweise eines Gas-Turbinen-Kraftwerks oder eines Kernkraftwerks, eines neuen Verkehrssystems oder ähnlichem sind eine große Anzahl von Information in mehreren technischen Dokumenten zu berücksichtigen.
Diese technischen Dokumente sind beispielsweise Lastenhefte, Pflichtenhefte, Produktbeschreibungen, Verträge, usw.
Die technischen Dokumente sind von einer Vielzahl unterschiedlicher Experten für unterschiedliche Spezialgebiete zu analysieren und zu erfassen.
Für die Experten besteht jedoch ein erhebliches Problem darin, eine spezifische gewünschte Information innerhalb der großen Anzahl technischer Dokumente zu finden.
Um dieses Problem zu mindern ist es bekannt, die technischen Dokumente mittels eines Scanners elektronisch zu erfassen und mittels eines Zeichenerkennungs-Verfahrens (Optical Character Recognition, OCR) das elektronisch erfasste Dokumente jeweils zu analysieren und den jeweiligen Inhalt des Dokuments, das heißt die einzelnen Zeichenketten, d. h. Wörter und numerische Zeichenketten, innerhalb des Dokuments zu erkennen.
Ist die Information mittels eines OCR-Verfahrens umgesetzt und gespeichert, kann beispielsweise mittels bekannter rechnergestützter Suchverfahren gewünschte Information durch Eingabe von Suchbegriffen in den gespeicherten elektronischen Dokumenten gesucht werden.
Die bekannten Standard-Suchverfahren erlauben es einem Benutzer, eine Suchanfrage als eine Liste eines oder mehrerer Suchbegriffe zu formulieren und in einen Computer einzugeben.
Nach Eingabe der Suchbegriffe wird das Suchverfahren unter Verwendung der Suchbegriffe als Suchparameter durchgeführt, d. h. die gespeicherten technischen Dokumente werden analysiert und es werden die gesuchten Begriffe innerhalb der technischen Dokumente ermittelt. Dem Benutzer werden die ermittelten Positionen, an denen die Begriffe innerhalb der technische Dokumente ermittelt worden sind, vorzugsweise graphisch dargestellt.
Bei den bekannten Begriffen im Suchverfahren ist es üblich, dass eine genaue Übereinstimmung der jeweiligen Suchbegriffe mit den ermittelten Begriffen in den technischen Dokumenten erforderlich ist, damit ein entsprechender Begriff in einem technischen Dokument als dem Suchbegriff entsprechend dem Benutzer ausgegeben wird.
Aus dem Erfordernis der exakten Übereinstimmung resultiert jedoch die Gefahr, dass manche relevanten Teile der elektronischen Dokumente nicht durch das Suchverfahren ermittelt werden, weil nur eine Variante des ursprünglich eingegebenen Suchbegriffs in dem jeweiligen technischen Dokument zu finden ist.
Im Allgemeinen können Begriffsvarianten aus unterschiedlichen Gründen entstehen, beispielsweise
  • - durch menschliche Fehler, das heißt Tippfehler oder auch Buchstabierfehler (beispielsweise Buchstabendreher),
  • - durch Fehler bei der optischen Zeichenerkennung, das heißt im OCR-Verfahren, oder
  • - aus linguistischen Gründen, das heißt durch Bilden des Plurals eines Begriffs, durch Verbvarianten, durch Wortzusammensetzungen und Wortneubildungen, usw.
Dieses Problem wird insbesondere bei technischen Beschreibungen noch wesentlich erschwert, da viele domänenspezifische bzw. anwendungsspezifische Begriffe, Komponentennamen usw. verwendet werden, die in allgemeinen Wörterbüchern üblicherweise nicht zu finden sind und deshalb insbesondere bei Einsatz eines OCR-Verfahrens unter Verwendung allgemeiner elektronischer Lexika nicht erkannt werden können.
Um die Suche nach gewünschter Information innerhalb einer Vielzahl technischer Dokumente zuverlässiger zu gestalten, das heißt um die Wahrscheinlichkeit dafür zu minimieren, dass ein wichtiger Textbestandteil innerhalb der technischen elektronischen Dokumente nicht ermittelt wird, ist somit ein Verfahren erforderlich, welches auch unterschiedliche, das heißt eine Vielzahl von Varianten eines Suchbegriffs ermitteln kann.
Ein solches Verfahren sollte generisch sein.
Insbesondere sollte es domänenspezifische Begriffe erkennen und verarbeiten können.
Ferner sollte es auch sprachenunabhängig sein, das heißt unabhängig sein von der gewählten Sprache, beispielsweise Deutsch, Englisch, Französisch, etc.
Übliche Wortvarianten, beispielsweise die Pluralform eines Begriffs, können durch Einsatz der sogenannten morphologischen Analyse behandelt werden.
Eine Komponente zur morphologischen Analyse enthält üblicherweise zwei Arten von Daten:
  • - Allgemein sprachabhängige Regeln, und
  • - alle Ausnahmen zu den Regeln, die es in der jeweiligen Sprache gibt.
Diese Daten erlauben eine Entscheidung, ob oder ob nicht zwei gegebene Wörter Varianten voneinander sind.
Die morphologische Analyse hat sich jedoch als eher ungeeignet insbesondere für den Einsatz bei domänenspezifischen Begriffen, wie beispielsweise Akronymen ("CAD", "CACD", "CAN" usw.) oder auch Kunstwörtern (beispielsweise "ISO 9000", "ISO 9001") herausgestellt.
Ferner ist es bekannt, für solche Standard-Suchverfahren Thesauri einzusetzen, um Wortvarianten zu erkennen.
Unter einem Thesaurus ist ein elektronisches strukturiertes Wörterbuch zu verstehen, bei dem einem Begriff jeweils Beziehungen zugeordnet sind, beispielsweise Synonym- Beziehungen, Akronym-Beziehungen, Oberbegriffs-Unterbegriffs- Beziehungen, etc.. Ein elektronischer Thesaurus kann somit beliebig relational oder auch hierarchisch strukturiert sein.
Bei einem elektronisches Thesaurus ist die Erweiterung einer Suchbegriffsliste mit jeder Variante des ursprünglichen Suchbegriffs möglich, mit der nach entsprechenden Textstellen innerhalb eines technischen Dokuments gesucht wird.
Ein Nachteil eines elektronischen Thesaurus ist jedoch darin zu sehen, dass insbesondere ein domänenspezifischer elektronischer Thesaurus nur selten vorhanden ist und die Erzeugung eines solchen manuell erfolgen muss und somit sehr aufwendig zu erstellen ist.
Weiterhin ist aus [1] ein sogenanntes "Wortähnlichkeits- Ermittlungsverfahren" bekannt.
Der in [1] beschriebene Algorithmus wird auch als "Levenshtein Distance" (auch "Edit Distance" genannt) bezeichnet.
Anschaulich ausgedrückt findet bei diesem Verfahren die Ähnlichkeitsbildung dadurch statt, dass der Abstand zwischen zwei elektronischen Zeichenketten ermittelt wird, basierend auf der minimalen Anzahl von Buchstabenbewegungen innerhalb der jeweiligen elektronischen Zeichenketten, die erforderlich sind, um die beiden Zeichenketten ineinander umzuwandeln.
Unter einer elektronischen Zeichenkette ist in diesem Zusammenhang eine Folge zusammenhängender Zeichen, beispielsweise ein Wort oder eine Zeichenfolge wie Abkürzungen oder Zeichenfolgen mit anderem Begriffsinhalt zu verstehen.
Die Levenshtein Distance ermöglicht zwar einen systematischen Vergleich zwischen zwei elektronischen Zeichenketten, weist jedoch den Nachteil auf, dass er eine geringere Ähnlichkeit für zwei Zeichenketten liefert, die nur einen überlappenden Teil innerhalb beider Zeichenketten aufweisen, beispielsweise bei den beiden Begriffen "Zugfolgezeit" und "Zugwechselzeit".
Ferner hat es sich herausgestellt, dass das aus [1] bekannte Verfahren insbesondere schlechte Ergebnisse liefert, wenn einzelne Teile innerhalb zweier Zeichenketten in ihrer Reihenfolge verschoben sind.
Somit liegt der Erfindung das Problem zugrunde, die Ähnlichkeit zweier elektronischer Zeichenketten miteinander zu ermitteln, wobei die ermittelte Ähnlichkeit hinsichtlich der tatsächlichen Übereinstimmung eine verbesserte Verlässlichkeit aufweist als die bekannten, oben beschriebenen Verfahren.
Weiterhin besteht ein erhebliches Problem darin, dass Informationen über ein spezifisches Konzept, insbesondere über ein spezifisches technisches Konzept in mehreren unterschiedlichen Arten in einem elektronischen Dokument vorkommen und beschrieben werden können.
Die Terminologie zur Beschreibung eines solchen Konzeptes ändert sich somit oftmals von elektronischem Dokument zu elektronischem Dokument oder sogar innerhalb eines elektronischen Dokuments, welches häufig von mehreren unterschiedlichen Autoren geschrieben worden ist.
So ist beispielsweise bei einer Anforderungsbeschreibung in einem großen Umfang sehr häufig zu bemerken, dass sich die verwendete Terminologie innerhalb der Anforderungsbeschreibung sehr stark ändert.
Außerdem sind in technischen elektronischen Dokumenten Informationen häufig nicht nur als Text, sondern auch in numerischer Form zu finden.
Beispielsweise kann eine Datumsangabe als "13. März" oder als "13.03.99" oder auch als "13. März 1999" bezeichnet sein.
Mit den bekannten schlagwortbasierten Textsuchverfahren können solche numerischen Informationen nicht entsprechend ermittelt und interpretiert werden.
Ein weiteres Problem bei einer Begriffssuche bzw. insbesondere bei einer Konzeptsuche von Elementen innerhalb eines oder mehrerer elektronischer Dokumente ist, dass ein Konzept in dem Text eines oder mehrerer elektronischer Dokumente häufig nicht von einem einzelnen Schlagwort, sondern von einer Kombination aus Schlagwörtern und/oder Nummern, das heißt numerischen Werten, umschrieben wird.
Eine gesuchte Zeichenkette aus textueller oder numerischer Information wird im Weiteren als Begriff bezeichnet.
Solche Begriffe können relativ einfach aufgebaut und somit leicht ermittelbar sein, wie beispielsweise numerische Information mit der numerischen Information zugeordneter Maßeinheit, sie können aber auch sehr komplex aufgebaut sein mit einer Mehrzahl von alphabetischen und numerischen Zeichenketten.
In jedem Konzept sind üblicherweise unterschiedliche Begriffe aufzufinden, die in einem oder mehreren elektronischen Dokumente vorkommen.
Eine bekannte Vorgehensweise, um die oben beschriebene Problematik zu reduzieren, ist die Textsuche beispielsweise mittels sogenannter "Wild Cards", um einfache Zeichenfolgen innerhalb eines Begriffs aufzufinden.
Dennoch sind die "Wild Cards" keine für einen Benutzer in der Praxis akzeptable Lösung, wenn ein Begriff sehr komplex aufgebaut ist oder wenn mehrere Begriffe gleichzeitig gesucht werden.
Die oben dargestellten Probleme führen dazu, dass es für Benutzer eines Textverarbeitungssystems häufig sehr schwer wird, Anfragen zu formulieren, um alle Textteile, die für ein spezifisches Thema, das heißt bezüglich eines oder mehrerer Begriffe relevant sind, innerhalb einer Vielzahl elektronischer Dokumente zu ermitteln.
Aus diesem Grund ist es sehr aufwendig und kostenintensiv, ein automatisches System zu ermitteln, welches mit einem ausreichenden Verlässlichkeitsgrad Information aus einem elektronischen Dokument automatisch extrahiert.
Aus [2], [3] und [4] sind Begriffs-Ermittlungssysteme bekannt, mit denen Konzepte in einem oder mehreren elektronischen Dokumenten ermittelt werden können.
Diese bekannten Begriffs-Ermittlungssysteme weisen jedoch insbesondere den Nachteil auf, dass sie für anwendungsspezifische Konzepte entwickelt wurden.
Die von diesen Begriffs-Ermittlungssystemen verwendeten Klassifizierungsregeln sind für die Begriffsermittlung entweder manuell durch Experten vorgegeben oder durch ein intensives Training des Systems erstellt.
Die einzelnen Komponenten eines solchen bekannten Begriffs- Ermittlungssystems sind ferner von weiteren linguistischen Analysen, wie beispielsweise Parsern oder morphologischen Analysen der elektronischen Dokumente, abhängig.
Ferner ist aus [5] ein Begriffs-Ermittlungssystem bekannt, welches semantische Merkmale in einer Vielzahl elektronischer Dokumente erkennen kann, um einzelne elektronische Dokumente oder Teile davon gemäß vorgegebenen Kriterien zu klassifizieren.
Auch bei dem aus [5] bekannten System sind die verwendeten Klassifizierungsregeln für die Anwendung von Experten manuell erstellt worden und an die spezielle Anwendung angepasst.
Ferner wird bei dem System aus [5] lediglich die Struktur und die Formatierung der elektronischen Dokumente berücksichtigt, nicht jedoch der Inhalt der elektronischen Dokumente.
Weiterhin ist aus [6] ein System zur Klassifikation elektronischer Dokumente auf der Basis der Technologie des fallbasierten Schließens bekannt.
Bei dem aus [6] bekannten System wird sowohl die syntaktische Klasse eines Worts ermittelt, das heißt es wird ermittelt, ob es sich bei dem Begriff um ein Verb, Substantiv etc. handelt, und die Bedeutung eines Wortes.
Die Klassifikation wird hauptsächlich auf der Basis von linguistischen Merkmalen der Worte durchgeführt, die bis zu zwei Begriffe vor oder nach einem vorgegebenen Wort in einem elektronischen Dokument vorkommen.
Insofern ist das aus [6] bekannte System für die Identifikation von Konzepten, die als kompliziertes Muster, das heißt als eine aus einer Vielzahl von Worten oder numerischen Angaben bestehenden Begriffs in einem elektronischen Dokument vorkommen, nicht geeignet.
Ferner ist das in [6] beschriebene System nicht in der Lage, numerische Information zu berücksichtigen.
Somit liegt der Erfindung das Problem zugrunde, eine Begriffs-Vergleichsstruktur zu ermitteln, welche eine flexiblere Ermittlung von Begriffen in einem elektronischen Dokument ermöglicht.
Weiterhin liegt der Erfindung das Problem zugrunde, ein gegenüber dem Stand der Technik flexibleres Ermitteln von Begriffen in einem elektronischen Dokument zu ermöglichen.
Die Probleme werden durch die Vorrichtung und das Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur zum Ermitteln von Elementen aus mindestens einem elektronischen Dokument, durch eine Vorrichtung und ein Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument sowie durch Computerlesbare Speichermedien und Computerprogramm-Elemente mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.
Eine Vorrichtung zum Ermitteln einer Begriffs- Vergleichsstruktur zum Ermitteln von Elementen aus mindestens einem elektronischen Dokument weist einen Prozessor aus, der derart eingerichtet ist, dass folgende Schritte durchführbar sind.
Aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt.
Die Basisbegriffe können sowohl manuell vorgegeben werden, als auch aus einem oder einer Vielzahl von elektronischen Dokumenten mittels üblicher Parser bestimmt werden.
Im Rahmen der Erfindung kann sowohl ein elektronisches Dokument als auch eine Vielzahl elektronischer Dokumente berücksichtigt werden.
Unter einem elektronischen Dokument ist in diesem Zusammenhang eine elektronische Datei zu verstehen, in der textuelle Information, allgemeine Bildinformation, beispielsweise Videoinformation oder numerische Information enthalten ist und gemäß einem durch einen Computer verarbeitbaren Codierungsformat codiert sind.
Aus mehreren Basisbegriffen wird ein Zwischenbegriff gebildet, wobei jeder Zwischenbegriff zumindest einen Teil eines oder mehrerer Basisbegriffe, die zur Bildung des Zwischenbegriffs berücksichtigt werden, enthält.
Weisen die Basisbegriffe lediglich textuelle Information auf, so wird der Zwischenbegriff gebildet, indem die zwischen den Basisbegriffen identisch übereinstimmenden Zeichenketten als Zwischenbegriff verwendet werden.
Weist jedoch einer oder mehrere der berücksichtigten Basisbegriffe numerische Information, beispielsweise eine Mengenangabe oder eine Datumsangabe auf, so ist es gemäß einer Ausgestaltung der Erfindung vorgesehen, dass der Zwischenbegriff gebildet wird, indem das durch die Basisbegriffe jeweils begrenzte Werteintervall als Zwischenbegriff verwendet wird.
Zumindest aus den ermittelten Zwischenbegriffen wird die Begriffs-Vergleichsstruktur gebildet, die zum Ermitteln von Begriffen aus mindestens einen elektronischen Dokument verwendet wird.
Die Ermittlung von Begriffes aus mindestens einem elektronischen Dokument erfolgt unter Verwendung der auf die oben beschriebene Weise ermittelten Begriffs- Vergleichsstruktur. Zum Ermitteln des Begriffs wird das Prinzip des fallbasierten Schließens eingesetzt, in dessen Rahmen die Begriffs-Vergleichsstruktur verwendet wird.
Das Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur weist die von einem Prozessor durchführbaren, oben beschriebenen Verfahrensschritte auf.
Ebenso weist das Verfahren zum Ermitteln eines oder mehrerer Begriffe aus mindestens einem elektronischen Dokument die oben dargestellten von einem Prozessor durchführbaren Verfahrensschritte auf.
Die Erfindung kann sowohl in Hardware, das heißt mittels einer speziellen elektronischen Schaltung, realisiert werden, als auch mittels eines Computerprogramms, das heißt in Software.
Die Computerlesbaren Speichermedien haben ein Computerprogramm gespeichert, das bei Durchführung mittels eines Prozessors die oben dargestellten Verfahrensschritte aufweist.
Ferner weist ein Computerprogramm-Element jeweils die oben beschriebenen Verfahrensschritte auf, wenn es von einem Prozessor ausgeführt wird.
Durch die Erfindung wird insbesondere aufgrund der Bildung von Zwischenbegriffen, unter deren Berücksichtigung der Begriffs-Vergleichsstruktur ermittelt wird, die im Rahmen des fallbasierten Schließens berücksichtigt wird, eine gegenüber den bekannten Systemen erheblich flexiblere, von den einzelnen Anwendungen unabhängige Einsetzbarkeit erreicht.
Weiterhin ist durch die Erfindung, insbesondere durch die Bildung der Zwischenbegriffe auch die Berücksichtigung von numerischen Ausdrücken zur Ermittlung von Begriffen, allgemein von Konzepten innerhalb eines oder mehrerer elektronischer Dokumente möglich.
Damit wird die Einsetzbarkeit und die Benutzerfreundlichkeit eines automatisierten Textermittlungssystems durch die Erfindung erheblich verbessert.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die im Weiteren dargelegten Ausgestaltungen der Erfindung betreffen sowohl die Vorrichtungen, die Verfahren, die Computerlesbaren Speichermedien als auch die Computerprogramm-Elemente.
In einer Ausgestaltung der Erfindung ist es vorgesehen, dass die Begriffs-Vergleichsstruktur zusätzlich unter Berücksichtigung der vorgegebenen Basisbegriffe erfolgt, wodurch insbesondere die Verlässlichkeit und Genauigkeit der Begriffsermittlung und damit die "Qualität" der ermittelten Begriffs-Vergleichsstruktur weiter erhöht wird.
Weiterhin kann zusätzlich in der Begriffs-Vergleichsstruktur ein Teil oder auch ein gesamter elektronischer Thesaurus, der sowohl eine allgemeine relationale Struktur als auch einer hierarchische, das heißt baumartige Struktur, aufweisen kann, in die Begriffs-Vergleichsstruktur übernommen werden.
Gemäß einer weiteren Ausgestaltung der Erfindung ist die Begriffs-Vergleichsstruktur hierarchisch strukturiert.
Durch diese Ausgestaltung ist es möglich, die Begriffsermittlung schneller, einfacher und somit kostengünstiger durchzuführen.
Weiterhin kann jedem vorgegebenen Basisbegriff und/oder jedem Zwischenbegriff ein Aktivationswert zugeordnet sein. Der einem Zwischenbegriff zugeordnete Aktivationswert kann gewichtet sein abhängig von den Aktivationswerten, die den Basisbegriffen zugeordnet sind oder die Zwischenbegriffen untergeordneter Hierarchieebenen zugeordnet sind.
Es kann grundsätzlich in der Begriffs-Vergleichsstruktur eine beliebige Anzahl von Hierarchieebenen mit jeweiligen Zwischenbegriffen vorgesehen sein, das heißt die Zwischenbegriffe müssen nicht ausschließlich aus Basisbegriff ermittelt werden, sondern können auch aus weiteren Zwischenbegriffen ermittelt werden.
Der einem Zwischenbegriff zugeordnete Aktivationswert kann weiterhin abhängig von der Ähnlichkeit der Basisbegriffe oder Zwischenbegriffe, aus denen der jeweilige Zwischenbegriff gebildet worden ist, ermittelt werden, wobei der Ähnlichkeitswert gemäß einem vorgegebenen Ähnlichkeitskriterium ermittelt wird.
Die den Zwischenbegriffen oder den Basisbegriffen zugeordneten Aktivationswerte können im Rahmen das fallbasierten Schließens berücksichtigt werden.
Weiterhin ist es gemäß einer Ausgestaltung der Erfindung vorgesehen, dass im Rahmen das fallbasierten Schließens mehrere berücksichtigte Basisbegriffe und/oder Zwischenbegriffe ein gemeinsamer Gesamt-Ähnlichkeitswert ermittelt wird, mit dem beschrieben wird, wie ähnlich die Gesamtheit der mehreren berücksichtigten Basisbegriffe und/oder Zwischenbegriffe zu den jeweiligen vorgegebenen Basisbegriffen bzw. den Zwischenbegriffe der Begriffs- Vergleichsstruktur sind.
Weiterhin kann die Reihenfolge der gemeinsam berücksichtigten Begriffe, wie sie in dem jeweiligen elektronischen Dokument bzw. innerhalb der Begriffs-Vergleichsstruktur auftreten, im Rahmen des fallbasierten Schließens berücksichtigt werden.
Durch diese Ausgestaltung der Erfindung wird die Genauigkeit der Begriffs-Vergleichsstruktur weiter verbessert.
Die Erfindung kann sowohl im Rahmen eines Textsuchverfahrens, beispielsweise auch im Rahmen einer Internet-Suchmaschine eingesetzt werden, als auch zur Klassifikation und Einteilung elektronischer Dokumente entsprechend unterschiedlicher Suchkriterien, die durch die Begriffs-Vergleichsstruktur vorgegeben sind.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Weiteren näher erläutert.
Es zeigen
Fig. 1 eine Skizze, anhand der die Vorgehensweise zum Ermitteln von Begriffen in einem elektronischen Dokument und eine anschließende Klassifikation des elektronischen Dokuments gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist;
Fig. 2 ein Blockdiagramm, in dem ein Scanner und ein Computer zum Erfassen und Speichern elektronischer Dokumente gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 3 eine Skizze, in der das Ermitteln von Zwischenbegriffen aus Basisbegriffen dargestellt ist;
Fig. 4 eine Skizze, in der das Hinzufügen von Basisbegriffen und Zwischenbegriffen in eine Datenbank für das fallbasierte Schließen dargestellt ist;
Fig. 5 eine Skizze, in der eine Positionsgewichtungsfunktion übereinstimmender Zeichenfolgen unterschiedlicher Basisbegriffe oder Zwischenbegriffe, aus denen ein Zwischenbegriff ermittelt wird, dargestellt ist;
Fig. 6 eine Skizze, anhand der die Propagierung von Aktivationswerten im Rahmen der Hinzufügung neuer Basisbegriffe zu der Datenbank, in der die Begriffs- Vergleichsstruktur gespeichert ist;
Fig. 7 eine Skizze, in der sowohl die Vorgehensweise zum Erstellen der Begriffs-Vergleichsstruktur als auch die Anwendungsphase zum Ermitteln von Begriffen in einem elektronischen Dokument sowie die Klassifikation eines elektronischen Dokuments dargestellt ist;
Fig. 8 eine Skizze, in der die einzelnen Verfahrensschritte zum Ermitteln der Begriffs-Vergleichsstruktur gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist.
Fig. 9 ein Ablaufdiagramm, in dem die einzelnen Verfahrensschritte des Verfahrens zum Ermitteln eines Ähnlichkeitswerts zweier Zeichenketten gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind;
Fig. 10a und 10b zwei Beispiele der Initialisierung eines Buchstabenregisters und eines Umsetzungskostenregisters anhand zweier unterschiedlicher Zeichenketten;
Fig. 11a und 11b zwei Beispiele des Inhalts des Buchstabenregisters und des Umsetzungskostenregisters für zwei unterschiedliche Vergleiche zweier Zeichenketten gemäß einem Ausführungsbeispiel der Erfindung;
Fig. 12 eine Skizze einer Konvertierungsfunktion, mit der ein Ähnlichkeitswert auf einen Wahrscheinlichkeitswert abgebildet wird;
Fig. 2 zeigt ein elektronisches Dokumentationssystem 200, mittels dem eine Vielzahl technischer Dokumente 201, beispielsweise Lastenhefte, Pflichtenhefte, Produktbeschreibungen, Projektverträge etc. erfasst, verarbeitet und gespeichert werden.
Die technischen Dokumente 201 werden mittels eines Scanners 202 erfasst, digitalisiert und als digitalisierte Dokumente 204 einem Computer 209, der mit dem Scanner 202 über eine Leitung 203 oder einer Funkverbindung oder einer Infrarotverbindung verbunden ist, zugeführt.
Der Computer 209 weist eine Eingangs-/Ausgangs-Schnittstelle 205 auf, die über einen Computerbus 208 mit einem Prozessor 207 und einem Speicher 206 des Computers 209 gekoppelt ist.
Ferner ist der Computer 209 über die Eingangs-/Ausgangs- Schnittstelle 205 über eine zweite Leitung 210 mit einem Bildschirm 211 zur Darstellung von ermittelter Ergebnisinformation verbunden.
Weiterhin ist der Computer 209 über die Eingangs-/Ausgangs- Schnittstelle 205 über eine dritte Leitung 212 mit einer Computermaus 213 und über eine vierte Leitung 214 mit einer Tastatur 215 verbunden.
Die digitalisierten technischen elektronischen Dokumente 204 werden in dem Speicher 206 des Computers 209 gespeichert und es wird ein Zeichenerkennungsverfahren (OCR-Verfahren) auf die technischen digitalisierten Dokumente 204 durchgeführt mittels des Prozessors 207, wodurch OCR-bearbeitete technische elektronische Dokumente erzeugt werden, die wiederum in dem Speicher 206 des Computers 209 gespeichert werden.
Die technischen elektronischen Dokumente liegen nach der OCR- Bearbeitung als elektronische Zeichenketten vor, die beispielsweise gemäß dem ASCII-Standard codiert sind.
In Fig. 3 ist gezeigt, wie für Basisbegriffe oder auch Zwischenbegriffe aufgrund einer Generalisierung jeweils mehrere Basisbegriffe oder mehrere Zwischenbegriffe ein Zwischenbegriff ermittelt wird, der in die Begriffs- Vergleichsstruktur integriert wird, das heißt in der Datenbank, die, wie im Weiteren noch detailliert erläutert wird, im Rahmen des fallbasierten Schließens zur Ermittlung eines Begriffs in einem oder mehrerer elektronischer Dokumente verwendet wird.
Aus den elektronischen Dokumenten werden elektronische Teildokumente, die im Weiteren als Textbeispiel bezeichnet werden, ermittelt und jeweils zum Erstellen der Begriffs- Vergleichsstruktur berücksichtigt.
Aus einem oder mehreren Textbeispielen aus einem oder mehreren elektronischen Dokumenten 201 werden Basisbegriffe 301, 302, 303, 304, 305 ermittelt, gemäß diesem Ausführungsbeispiel folgende Basisbegriffe:
  • - Ein erster Basisbegriff 301 "required";
  • - ein zweiter Basisbegriff 302 "Main_ requirement";
  • - ein dritter Basisbegriff 303 "100";
  • - ein vierter Basisbegriff 304 "money";
  • - ein fünfter Basisbegriff 305 "75".
Jeder Basisbegriff 301, 302, 303, 304, 305 wird gewichtet.
Das Gewicht, welches einem Basisbegriff 301, 302, 303, 304, 305 zugeordnet wird, wird aus der relativen Häufigkeit des/der entsprechenden Wortes/Nummer, das heißt numerischen Begriffs innerhalb des zum Training verwendeten Textbeispiels im Vergleich zu der relativen Häufigkeit innerhalb der gesamten elektronischen Dokumente berechnet.
Die Basisbegriffe 301, 302, 303, 304, 305, die keine statistische Vorhersagerelevanz aufweisen, das heißt diejenigen Basisbegriffe, die relativ selten in den Textbeispielen vorkommen oder sehr häufig in den Textbeispielen vorkommen, werden ein Gewicht mit dem Wert "0" zugeordnet.
Gemäß einer weiteren Ausgestaltung der Erfindung kann es vorgesehen sein, lediglich eine vorgegebene Anzahl von Iterationen im Rahmen des Generalisierungsprozesses vorzusehen und nach Durchführung der vorgegebenen Anzahl von Iterationen oder auch nach Bildung von einer vorgegebenen Anzahl Hierarchieebenen den Generalisierungsvorgang abzubrechen.
Denjenigen Basisbegriffen 301, 302, 303, 304, 305, die relativ häufig in den zum Training verwendeten elektronischen Dokumenten vorkommen, wird ein Gewicht von ungefähr "1" zugeordnet. Anschaulich wird den Basisbegriffen 301, 302, 303, 304, 305 ein entsprechend dem oben dargelegten Kriterium angepasster Wert zwischen 0 und 1 zugeordnet.
Wie in Fig. 3 dargestellt ist, wird ein erster Zwischenbegriff 306 durch Generalisierung des ersten Basisbegriffs 301 und des zweiten Basisbegriffs 302 gebildet.
Da sowohl der erste Basisbegriff 301 als auch der zweite Basisbegriff 302 jeweils eine rein alphabetische Zeichenfolge ist, erfolgt die Generalisierung zu dem ersten Zwischenbegriff 306 dadurch, dass eine in beiden Basisbegriffen 301, 302 vorkommende Zeichenfolge, gemäß diesem Ausführungsbeispiel die Zeichenfolge "require", ermittelt wird und die maximale Anzahl von Zeichen, die in einem Basisbegriff 301, 302 vor diesem Zwischenbegriffskern 307 vorkommt, ermittelt und als Vorkernwert 308 als Zahlenwert, gemäß diesem Ausführungsbeispiel als Zahlenwert 5 (vor dem Zwischenbegriffskern 307 "require" weist der zweite Basisbegriff 302 fünf Zeichen, nämlich "Main_ " auf)
Weiterhin wird für die berücksichtigten Basisbegriffe 301, 302 ermittelt, wie viel Zeichen maximal nach dem Zwischenbegriffskern 307 in einem der beiden Basisbegriffe 301, 302 vorkommen.
Gemäß diesem Ausführungsbeispiel weist der erste Basisbegriff nach dem Zwischenbegriffskern 307 ein Zeichen ("d") sowie der zweite Basisbegriff 302 vier Zeichen ("ment")
Somit wird als Nachkernwert 309 der Zahlenwert 4 gemeinsam mit dem Vorkernwert 308 und dem Zwischenbegriffskern 307 als erster Zwischenbegriff 306 gespeichert.
Sowohl der dritte Basisbegriff 303 als auch der fünfte Basisbegriff 305 stellen rein numerische Ziffernfolgen dar.
Diese werden zu einem zweiten Zwischenbegriff 310 generalisiert gemäß der Vorschrift, dass ein mittels der Zahlenwerte der beiden Basisbegriffe 303, 305 ein Werteintervall 311 definiert wird, gemäß diesem Ausführungsbeispiel ein Werteintervall von [75, 100] (fünfter Basisbegriff 305 weist den Wert "75" auf dritter Basisbegriff 303 weist den Wert "100" auf).
Diese in Fig. 3 dargestellte Vorgehensweise wird gemäß diesem Ausführungsbeispiel für alle Worte oder numerische Zeichenfolgen, die in den für ein Training berücksichtigten elektronischen Dokumente bzw. Textbeispiele enthalten sind, so lange durchgeführt bis keine Generalisierung zwischen den einzelnen Basisbegriffen bzw. Zwischenbegriffen mehr möglich ist.
Somit ergibt sich eine gemäß diesem Ausführungsbeispiel hierarchisch strukturierte Baumstruktur, die die Begriffs- Vergleichsstruktur 300 bildet.
Anschaulich erfolgt somit eine Generalisierung bei alphabethischen Zeichenketten durch Ermittlung der größten Überlappung von Zeichen in den berücksichtigten Basisbegriffen und der Anzahl von fehlenden Buchstaben vor und nach der Überlappung der übereinstimmenden Zeichen.
Gemäß diesem Ausführungsbeispiel werden jeweils zwei Basisbegriffe oder Zwischenbegriffe pro Iteration miteinander berücksichtigt zur Bildung eines weiteren Zwischenbegriffs. Es werden jeweils aus allen berücksichtigten Basisbegriffen diejenigen Basisbegriffe gewählt, die zueinander gemäß dem im Weiteren beschriebenen Ähnlichkeitskriterium die größte Ähnlichkeit aufweisen.
Die Ähnlichkeit eines Begriffs wird gemäß der folgenden Vorgehensweise ermittelt:
Wie in Fig. 9 gezeigt ist, ist für jedes Zeichen einer ersten Zeichenkette 901 ein Zeichenregister 902 vorgesehen, welchem Zeichenregister 902 jeweils ein Umsetzungskostenregister 903 zugeordnet ist.
In den Zeichenregister 902 wird, wie im Weiteren näher erläutert wird, die Zuordnung zwischen je zwei Zeichen der ersten Zeichenkette 901 und einer jeweils berücksichtigten zweiten Zeichenkette 904 gespeichert.
In einem Umsetzungskostenregister 903 wird, wie im Weiteren ebenfalls näher erläutert wird, jeweils der Unterschied zwischen zwei einander zugeordneten Zeichen der ersten Zeichenkette 901 und der zweiten Zeichenkette 904 gespeichert.
Gemäß diesem Ausführungsbeispiel wird jedes Zeichenregister 902 mit einem ersten Wert (gemäß diesem Ausführungsbeispiel dem Wert "-1") initialisiert.
Ferner wird jedes Umsetzungskostenregister 903 mit einem zweiten Wert (gemäß diesem Ausführungsbeispiel mit dem Wert "1") initialisiert.
Fig. 10a zeigt die Initialisierung der Buchstabenregister 902 sowie der Umsetzungskostenregister 903 für das Wort "Sitzplatz" als erste Zeichenkette 901.
Wie Fig. 10a zu entnehmen ist, sind für das Wort "Sitzplatz" neun Buchstabenregister 902 und neun Umsetzungskostenregister 903 vorgesehen, was der Länge des Wortes, das heißt der Anzahl der Buchstaben, allgemein der Zeichen, in der ersten Zeichenkette 901 entspricht.
Gemäß dem in Fig. 10a dargestellten Ausführungsbeispiel ist die Zeichenfolge "Plätze(sitze)" als zweite Zeichenkette 904 gewählt.
Gemäß Fig. 10b ist die Initialisierung für ein Beispiel dargestellt, bei dem der Ausdruck "Plätze(sitze)" als erste Zeichenkette 904 gewählt wurde und der Ausdruck "Sitzplatz" als zweite Zeichenkette 904.
Wie Fig. 10b zu entnehmen ist, sind für diesen Fall dreizehn Zeichenregister 902 und Umsetzungskostenregister 903 vorgesehen, die mit dem entsprechenden Wert "-1" (Zeichenregister 902) bzw. "1" (Umsetzungskostenregister 903) initialisiert werden, entsprechend der Anzahl der Zeichen in dem Ausdruck "Plätze(sitze)".
In einem weiteren Schritt wird die Position eines Zeichens der zweiten Zeichenkette 904 für ein Zeichen der ersten Zeichenkette 901 ermittelt und in das dem jeweiligen Zeichen der ersten Zeichenkette 901 zugeordnete Buchstabenregister eingetragen, das heißt gespeichert, wobei die Position desjenigen Zeichens der zweiten Zeichenkette 904 gespeichert wird, die gemäß einem vorgegebenen Kriterium zu dem entsprechenden Zeichen der ersten Zeichenkette, das gerade betrachtet wird, passt.
Anschaulich bedeutet dies beispielsweise, dass für jedes Zeichen der ersten Zeichenkette 901 ein Zeichen innerhalb der zweiten Zeichenkette 904 gesucht wird, welches mit dem Zeichen der ersten Zeichenkette übereinstimmt oder diesem zumindest gemäß einer vorgegebenen Ähnlichkeitsliste ausreichend ähnlich ist.
So kann beispielsweise in einer Ähnlichkeitsliste vorgesehen sein, dass ein Buchstabe zwar gleich ist, dieser jedoch einmal klein und einmal groß geschrieben sein kann.
Weiterhin kann ein Zeichen der ersten Zeichenkette 901 als einem Zeichen der zweiten Zeichenkette 904 gemäß dem vorgegebenen Kriterium ausreichend ähnlich angesehen werden, wenn eines der Zeichen der Umlaut des jeweiligen anderen Zeichens ist, das heißt das Zeichen der ersten Zeichenkette 901 und das Zeichen der zweiten Zeichenkette 904, welches dem Kriterium genügt, bilden ein "Umlautpaar" gemäß der deutschen Sprache, beispielsweise "a-ä", "o-ö", "u-ü".
Weiterhin kann vorgesehen sein, dass zwei Zeichen dem Kriterium genügen, wenn beide Zeichen Ziffern sind, der Wert der Ziffer jedoch unterschiedlich ist.
Weiterhin können auch unterschiedliche Satzzeichen, beispielsweise einmal ein Fragezeichen und ein Zeichen der anderen Zeichenkette ein Ausrufezeichen oder auch ein Punkt und ein Komma bzw. ein Komma und ein Strichpunkt, usw. als Zeichen der beiden Zeichenketten 901, 904 dem Kriterium genügen.
Weiterhin können auch unterschiedliche Klammerformen als einander ausreichend ähnlich angesehen werden und damit dem Kriterium genügen, beispielsweise jeweils eine runde Klammer und eine geschweifte Klammer und/oder eine eckige Klammer.
In der Ähnlichkeitsliste ist für jedes gebildete Zeichenpaar, welches überhaupt zulässig ist, ein Umsetzungskostenwert gespeichert, mit dem angegeben wird, wie stark sich die beiden Zeichen des jeweiligen Zeichenpaars voneinander unterscheiden.
Sind die zwei ermittelten Zeichen der ersten Zeichenkette 901 bzw. der zweiten Zeichenkette 904 exakt gleich, so wird dem entsprechenden Umsetzungskostenregister 903 der Umsetzungskostenwert mit dem Wert "0" zugeordnet.
Die Umsetzungskosten für zwei einander zugeordnete Zeichen können jedoch bei unterschiedlichen Buchstaben entsprechend der gewählten Unähnlichkeit, wie er beispielsweise durch einen Benutzer vorgegeben wird und in der Ähnlichkeitsliste gespeichert wird, gewählt werden.
Wenn mehrere Zeichen der zweiten Zeichenkette 904 zu einem Zeichen der ersten Zeichenkette 901 passen würden, wird die Position der zweiten Zeichenkette 904 in das entsprechende Zeichenregister 902 eingetragen, die zu der größten Überlappung zweier Zeichenketten gehört, wie sie im Weiteren noch näher erläutert wird.
Wenn die einander zugeordneten Zeichen der zwei Zeichenketten 901, 904 nicht gleich sind, werden die entsprechenden Umsetzungskostenwerte in das Umsetzungskostenregister 903 gespeichert.
Wenn kein Zeichen der zweiten Zeichenkette zu einem Zeichen der ersten Zeichenkette 901 gemäß dem vorgegebenen Kriterium passt, bleiben die Werte aus der Initialisierungsphase, das heißt der gemäß dem Ausführungsbeispiel der Wert "-1", in dem Zeichenregister 902 bzw. der Werte "1" für das Umsetzungskostenregister 903 gespeichert.
Fig. 11a zeigt das Buchstabenregister 902 und das Umsetzungskostenregister 903 für den Ausdruck "Sitzplatz" als erste Zeichenkette 904 und den Ausdruck "Plätze(sitze)" nach erfolgter Zuordnung der Zeichen der beiden Zeichenketten 901, 904 zueinander.
Wie Fig. 11a zu entnehmen ist, ist in einem ersten Buchstabenregister 1101, welches dem Zeichen "S" des Wortes "Sitzplatz" zugeordnet ist, der Wert "7" gespeichert, welcher der Position des Buchstabens "s" innerhalb des Wortes "Plätze(sitze)" als zweite Zeichenkette 904 entspricht, wie dies in Fig. 11a mit der Abbildungslinie 1102 dargestellt ist.
Da der Buchstabe "S" in dem Wort Sitzplatz groß geschrieben ist und in dem Wort "Plätze(sitze)" klein geschrieben ist, ist in dem ersten Zeichenregister 1101 zugeordneten ersten Umsetzungskostenregister 1103 der Umsetzungskostenwert "0,5" gespeichert.
In einem zweiten Zeichenregister 1104, welches dem Buchstaben "i" der ersten Zeichenkette 901 zugeordnet ist, ist der Wert "8" gespeichert, da in der zweiten Zeichenkette 904 der Buchstabe "i" an neunter Position steht.
In diesem Zusammenhang ist anzumerken, dass gemäß dem Ausführungsbeispiel die erste Position als Position "0" bezeichnet wird.
Da die beiden Buchstaben "i" exakt miteinander übereinstimmen, ist in dem dem zweiten Zeichenregister 1104 zugeordneten zweiten Umsetzungskostenregister 1105 der Wert "0" gespeichert.
Entsprechend sind die weiteren Zeichenregister 902 und die weiteren Umsetzungskostenregister 903 mit den entsprechend gemäß den durch die Abbildungslinien 1102 in Fig. 11a dargestellten Zuordnungen gespeichert.
Fig. 11b zeigt die entsprechende Vorgehensweise und den entsprechenden gespeicherten Wert in den Zeichenregistern 902 und den Umsetzungskostenregistern 903 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette 901 und den Ausdruck "Sitzplatz" als zweite Zeichenkette 904.
Wie Fig. 11b zu entnehmen ist, kann für den Buchstaben "e" sowie für die Klammern in der ersten Zeichenkette 901 kein entsprechendes Zeichen in der zweiten Zeichenkette 904 ermittelt werden, weshalb in den entsprechenden weiteren Zeichenregistern 1106 weiterhin der Initialisierungswert "-1" gespeichert ist.
In den weiteren Zeichenregistern 1106 zugeordneten weiteren Umsetzungskostenregistern 1107 bleibt weiterhin der Initialisierungswert "1" gespeichert.
In einem weiteren Schritt werden ausgehend von den Positionswerten, die in den Zeichenregistern 102 gespeichert sind und den den Positionswerten zugeordneten Umsetzungskostenwerten, die in den Umsetzungskostenregistern 903 gespeichert sind, Ähnlichkeitsfaktoren 907 ermittelt, unter deren Verwendung ein Ähnlichkeitswert zur Beschreibung der Ähnlichkeit der ersten Zeichenkette 901 mit der zweiten Zeichenkette 904 beschrieben wird, wie im Weiteren näher erläutert wird.
Gemäß diesem Ausführungsbeispiel beschreibt jeder Faktor 907 anschaulich einen semantischen Aspekt, weshalb aus semantischen Gründen jeweils zwei miteinander zu vergleichende Zeichenketten einander ähnlich sein können.
Jeder Faktor 907 kann einen positiven und/oder einen negativen Einfluss auf die gesamte Ähnlichkeit aufweisen.
Es ist in diesem Zusammenhang darauf hinzuweisen, dass grundsätzlich jeder Faktor 907, der einen Einfluss auf die Ähnlichkeit zweier miteinander zu vergleichender Zeichenketten haben kann, gemäß der Erfindung verwendet werden kann.
Gemäß diesem Ausführungsbeispiel werden folgende Faktoren 907 gebildet und berücksichtigt:
  • - Erster Faktor (F1): relative Größe der zwei Zeichenketten (vgl. Beispiel in Fig. 10a):
    F1 = Min(Len(Wort1), Len(Wort2))/Max(Len(Wort1), Len(Wort2)) = 9/13 = 0,69.
    Je größer der "relative Unterschied", das heißt auf die Länge der ersten Zeichenkette bzw. der zweiten Zeichenkette bezogene Unterschied der Länge der zwei Zeichenketten ist, um so geringer ist die gesamte Ähnlichkeit der zwei Zeichenketten.
    Gemäß dem Ausführungsbeispiel ist die Differenz der Anzahl von Zeichen, die in den Zeichenketten 901, 904 enthalten sind, 4 (13 - 9 = 4)
    Somit ergibt sich ein relativer Unterschied als erster Faktor als 4/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette oder 4/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette;
  • - Zweiter Faktor (F2) die relative Länge der größten Überlappung der zwei Zeichenketten (vgl. Beispiel in Fig. 10a):
    F2 = LongestSubsequence(Wort1, Wort2)/Min(Len(Wort1), Len(Wort2)) = 6/9 = 0,66.
    Eine Überlappung wird gemäß diesem Ausführungsbeispiel als fortlaufende Sequenz von positiven Nummern, das heißt positiven Positionswerten in den Zeichenregistern 902 identifiziert, da ja für den Fall, dass kein entsprechendes Zeichen in der zweiten Zeichenkette für ein Zeichen der ersten Zeichenkette 901 ermittelt werden konnte, der Initialisierungswert "-1" mit negativem Vorzeichen in dem entsprechenden Zeichenregister 901 gespeichert bleibt, wodurch eine Unterbrechung positiver Positionswerte in den Zeichenregistern 902 erzeugt würde.
    Die Länge der größten Überlappung wird gemäß diesem Ausführungsbeispiel relativ zur maximalen Überlappung, das heißt zur Länge der kürzeren Zeichenkette, gebildet.
    Je größer die (relative) Überlappung der zwei Zeichenketten 901, 904 ist, um so größer ist die gesamte Ähnlichkeit, das heißt der zu ermittelnde Ähnlichkeitswert.
    Gemäß diesem Ausführungsbeispiel ist die größte absolute Überlappung gleich 5 (Teilsequenz "Platz" für den Ausdruck "Sitzplatz" als erste Zeichenkette bzw. für die Teilsequenz "Plätz" für den Ausdruck "Plätze(sitze)".
    Somit ergibt sich der zweite Faktor zu 5/9 bei dem Ausdruck "Sitzplatz" für die erste Zeichenkette und zu 5/13 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette.
  • - Dritter Faktor (F3): Anteil der fehlenden Zeichen der ersten Zeichenkette, das heißt der Anteil der Zeichen der ersten Zeichenkette, für die kein entsprechendes Zeichen in der zweiten Zeichenkette ermittelt werden konnte (vgl. Beispiel in Fig. 10a):
    F3 = 1 - (NumbMissingLetters(Wort1)/Len(Wort1)) = 1.
    Die Anzahl der fehlenden Zeichen entspricht der Anzahl der in den Zeichenregistern 902 gespeicherten Initialisierungswerten "-1" nach erfolgter Eintragung der Zuordnungen, das heißt der Positionswerte in die Zeichenregister 902.
    Je größer der Anteil der fehlenden Zeichen ist, um so geringer ist die gesamte Ähnlichkeit der beiden zu vergleichenden Zeichenketten 901, 904.
    Gemäß dem Ausführungsbeispiel ist der dritte Faktor gleich 1 für den Ausdruck "Sitzplatz" als erste Zeichenkette und gleich 4 für den Ausdruck "Plätze(sitze)" als erste Zeichenkette.
  • - Vierter Faktor (F4): Unzusammenhängigkeit (vgl. Beispiel in Fig. 10a)
    F4 = sqrt(1.0 - (NumbSequences(Wort1, Wort2)/Len(Wort1))) = sqrt(1.0 - 1/9) = 0,94.
    Die Unzusammenhängigkeit entspricht der Anzahl der Teilsequenzen von Zeichen zwischen den zwei Zeichenketten 901, 904. Der Anfang einer Teilsequenz in einem Zeichenregister 902 kann als positiver Wert, dessen Wert, der nicht um mehr als um einen Wert "1" größer ist als der in dem für das vorangegangene Zeichen der ersten Zeichenkette zugeordneten Zeichenregister 902 ist, ermittelt werden.
    Je größer die Anzahl von Teilsequenzen ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 901, 904.
    Gemäß dem Ausführungsbeispiel weist der vierte Faktor für beide Beispiele den Wert 0,94 auf.
  • - Fünfter Faktor (F5): Reihenfolge der Teilsequenzen (vgl. Beispiel in Fig. 10a):
    F5 = sqrt(1.0 - (NumbReversals(wort1, Wort2)/Len(Wort1))) = sqrt(1.0 - 1/9) = 0,94.
    Der fünfte Faktor beschreibt, wie konsequent die zweite Zeichenkette die Zeichenreihenfolge der ersten
    Zeichenkette einhält, das heißt dieser entspricht.
    Ein Wechsel in der Reihenfolge wird in den Zeichenregistern 902 als positiver Wert identifiziert, der kleiner ist als der letzte positive Wert, der in einem vorangegangenen, das heißt einem vorangegangenen Zeichen innerhalb der ersten Zeichenkette zugeordneten Zeichenregister 902 gespeicherten Wert ist.
    Initialisierungswerte mit dem Wert "-1", die in dem Zeichenregister 902 noch gespeichert sind, die zwischen den zwei positiven Werten liegen, werden im Rahmen der Ermittlung des fünften Faktors gemäß diesem Ausführungsbeispiel ignoriert.
    Je größer die Anzahl von "Reihenfolgeumkehrungen" ist, um so geringer ist die gesamte Ähnlichkeit der beiden Zeichenketten 901, 904.
  • - Sechster Faktor (F6): Der erste Buchstabe beider Zeichenketten 901, 904 ist gleich (vgl. Beispiel in Fig. 10a):
    F6 = 1,5 wenn Erste(Wort1) = = Erste(Wort2) sonst 1.
    Wenn die ersten Zeichen der zwei Zeichenketten 901, 904 einander zugeordnet sind, das heißt wenn der Wert des ersten Buchstabe des Zeichenregisters 1101 den Wert "0" aufweist, wird die gesamte Ähnlichkeit, das heißt der Ähnlichkeitswert erhöht.
  • - Siebter Faktor (F7): Umsetzungskosten (vgl. Beispiel in Fig. 10a):
    F7 = 1 - (Summe(Umsetzungskostenregister)/Len(Wort1) = 1 - (1.5/9) = 0,83.
    Der siebte Faktor wird aus den Werten, die in den Umsetzungskostenregistern 903, das heißt den Umsetzungskostenwerten, berechnet.
    Je größer die Umsetzungskostenwerte sind, um so kleiner ist die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten.
  • - Achter Faktor (F8): Eine Zeichenkette ist Teilkette der anderen Zeichenkette (vgl. Beispiel in Fig. 10a):
    wenn LongestSubsequence(Wort1, Wort2) = = Len(Wort1) F8 = Sqrt (F1)
    sonst
    F8 = F1 = 9/13 = 0,69.
    Der achte Faktor bedeutet anschaulich, dass die Länge der größten Überlappung (vgl. zweiter Faktor) gleich der Länge der kürzeren Zeichenkette ist.
    In diesem Fall wird die gesamte Ähnlichkeit der beiden miteinander verglichenen Zeichenketten erhöht.
Die oben beschriebenen Faktoren 907 werden berücksichtigt, um einen Ähnlichkeitswert A 908 zu ermitteln. Der Ähnlichkeitswert A 908 wird gemäß dem vorliegenden Ausführungsbeispiel gemäß folgender Vorschrift ermittelt:
Zum Beispiel (vgl. Beispiel in Fig. 10a)
Ähnlichkeit(Wort1, Wort2) = F2.F3.F4.F5.F.F7.F8 = 0,66.1.0,94.0,94.1.0,83.0,69 = 0,33
Es ist in diesem Zusammenhang anzumerken, dass die einzelnen Faktoren 907 grundsätzlich beliebig gewichtet werden können, abhängig von der jeweiligen Anwendung.
Auch kann grundsätzlich jede geeignete Funktion verwendet werden, um den Ähnlichkeitswert A 908 zu bilden.
Gemäß Vorschrift (1) weist der gebildete Ähnlichkeitswert A 908 einen absoluten Wert auf, der insbesondere im Vergleich mit einem weiteren Ähnlichkeitswert A 908 den Aussagegehalt hat, dass die jeweiligen Zeichenketten dann einander ähnlicher sind als andere Zeichenketten, für die der weitere Ähnlichkeitswert A 908 gebildet wurde, wenn ein Ähnlichkeitswert A 908 größer ist als ein weiterer Ähnlichkeitswert.
Es ist jedoch aufgrund des Ähnlichkeitswerts A 908 noch keine statistische Aussage darüber möglich, wie ähnlich die beiden verglichenen Zeichenketten einander tatsächlich sind.
Um einen für einen Benutzer anschaulicheren Wert in Form einer Übereinstimmungswahrscheinlichkeit darzustellen, wird eine Konvertierungsfunktionenschar 1201 verwendet, wie sie in Fig. 12 dargestellt ist.
Mittels der Konvertierungsfunktionenschar 1201 wird jeweils der ermittelte Ähnlichkeitswert 1202 in einen Wahrscheinlichkeitswert 1203 umgewandelt (Block 908 in Fig. 9).
Gemäß diesem Ausführungsbeispiel sind die erzeugten Wahrscheinlichkeitswerte in folgendem Sinne zu interpretieren:
  • - Wahrscheinlichkeitswert = 0.9000 (1203):
    1 von 10 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - Wahrscheinlichkeitswert = 0.9900 (1203):
    1 von 100 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - Wahrscheinlichkeitswert = 0.9990 (1203):
    1 von 1000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - Wahrscheinlichkeitswert = 0.9999 (1203):
    1 von 10000 zufälligen Zeichenkettenpaaren wird mindestens so ähnlich sein;
  • - usw.
Wie in Fig. 12 dargestellt ist, wird die Konvertierungsfunktionenschar 1201 gebildet aus einer Schar unterschiedlicher Konvertierungsfunktionen 1204, 1205, 1206, 1207, 1208, die eine unterschiedliche Abbildungsfunktion darstellen abhängig von der Länge der jeweiligen Zeichenkette als Scharparameter.
Die Konvertierungsfunktionenschar 1201 kann bei Existenz einer Vielzahl technischer elektronischer Dokumente, die in dem Speicher 206 des Computers 209 gespeichert sind, mittels statistischer Analysen approximiert werden.
Eine Vielzahl von Zeichenkettenpaaren werden in diesem Fall zufällig aus den technischen Dokumenten ausgewählt.
Die Ähnlichkeit jedes Zeichenkettenpaaren wird berechnet und die Frequenz jedes Ähnlichkeitswerts A 908 wird gespeichert.
Verschiedene Zeichenkettenlängen können verschiedene Konvertierungsfunktionen 1204, 1205, 1206, 1207, 1208 benötigen, weshalb die Vielzahl von Konvertierungsfunktionen 1204, 1205, 1206, 1207, 1208 abhängig von der Zeichenkettenlänge als Scharparameter eingesetzt werden.
Die Konvertierungsfunktionen 1204, 1205, 1206, 1207, 1208 können auch sprachenabhängig, das heißt für die Sprache Deutsch, Englisch, Französisch usw. unterschiedlich ausgestaltet und der entsprechend eingesetzten Sprache angepasst werden.
Gemäß dem vorliegenden Ausführungsbeispiel wird folgende Konvertierungsfunktionenschar 1201 eingesetzt:
Wahrscheinlichkeit = K(Len(Wort1)) + ((1 - K(Len(Wort1)).exp(Ähnlichkeit, P(Len(Wort1)) )
Wobei K und P über statistische Mittel für eine bestimmte Wortlänge festgelegt sind.
Es hat sich ein Wahrscheinlichkeitswert von ≧ 0.999 als eine geeignete Grenze bei dem Einsatz des Verfahrens im Rahmen der Texterkennung für die tatsächliche Übereinstimmung der beiden Zeichenketten erwiesen.
Dies entspricht gemäß dem Ausführungsbeispiel einem Ähnlichkeitswert A 908 von ungefähr 0.4.
Gemäß einer alternativen Ausgestaltung der Erfindung ist der Erkenntnis Rechnung getragen worden, dass in vielen natürlichen Sprachen gewisse Sequenzen von Zeichen, insbesondere von Buchstaben, häufig vorkommen, die somit bei einem spezifischen Vergleich zweier Zeichenketten hinsichtlich ihrer spezifischen Ähnlichkeit nur einen geringen Informationsgehalt aufweisen.
Beispiele dafür sind Wortendungen wie "ung" und "keit" in der deutschen Sprache oder auch Buchstabensequenzen wie "ment", "sion" und "tion" in der englischen Sprache.
Solche Buchstabensequenzen können für die Wortähnlichkeitsfunktionen problematisch sein, da in diesem Fall nur oberflächliche Merkmale betrachtet werden, weil sie einen hohen Ähnlichkeitswert für Wortpaare, die keine tiefere Ähnlichkeit zueinander aufweisen, verursachen können.
Aufgrund dieser Erkenntnis ist es gemäß einer Ausgestaltung der Erfindung vorgesehen, solche Buchstabensequenzen, beispielsweise mittels statistischer Analysen (Häufigkeitsanalyse) in den gespeicherten technischen Dokumenten zu ermitteln und für die ermittelten, beispielsweise für die am häufigsten vorkommenden Buchstabenkombinationen diese als einzelnes logisches Zeichen zu betrachten und innerhalb des Verfahrens zum Bilden der Ähnlichkeitswerte und der entsprechenden Register zu berücksichtigen.
In diesem Fall wird die Länge der entsprechenden Zeichenketten und die Anzahl der verwendeten Zeichenregister 902 und Umsetzungskostenregister 903 entsprechend angepasst.
Die ermittelte Ähnlichkeit zwischen zwei alphabetischen Zeichenketten misst die relative Größe der Überlappung bezüglich des Ähnlichkeitskriteriums.
Die Ähnlichkeit zwischen rein numerischen Begriffen beschreibt den relativen Wertunterschied zwischen den numerischen Basisbegriffen.
Das jeweils berücksichtigte Basisbegriffs-Paar wird entsprechend der zuvor beschriebenen Vorgehensweise generalisiert zu einem Zwischenbegriff.
Der Generalisierungsprozess erfolgt gemäß diesem Ausführungsbeispiel so lange, bis kein Paar von Basisbegriffen, kein Paar von Basisbegriff-Zwischenbegriff bzw. kein Paar von Zwischenbegriffen mehr existiert, das noch nicht generalisiert ist, alternativ deren Ähnlichkeit nicht größer ist als ein vorgegebener Schwellenwert.
Fig. 4 zeigt anschaulich die Ermittlung einer Begriffs- Vergleichsstruktur 400, die aus drei Textbeispielen 401, 402, 403 sowie einem neuen Textbeispiel 404 gebildet wird.
Jedes Textbeispiel 401, 402, 403 stellt einen Fall dar, der im Rahmen des fallbasierten Schließens zur Ermittlung eines Begriffs und eventuell zur Klassifikation eines elektronischen Dokuments verwendet wird.
Fig. 4 zeigt ferner in der Begriffs-Vergleichsstruktur 400 Basisbegriffe 405, die jeweils aus den Textbeispielen 401, 402, 403 gebildet worden sind.
Durch Linien 406 wird jeweils angegeben, aus welchem Textbeispiel 401, 402, 403 der jeweilige Basisbegriff 405 gebildet wurde.
Jedes Textbeispiel 401, 402, 403 weist drei Teile auf:
  • - Einen Kernbereich, das heißt einen Textbereich, der den entsprechenden Begriff, das heißt das aktuell betrachtete Konzept mit ausreichender Genauigkeit abdeckt;
  • - einen Vorkernbereich, das heißt einen Textbereich, der unmittelbar vor dem Kernbereich in dem Textbeispiel liegt;
  • - einen Nachkernbereich, das heißt einen Textbereich, der unmittelbar nach dem Kernbereich in dem jeweiligen Textbeispiel angeordnet ist.
Jeder dieser Teile eines Textbeispiels, das heißt der Kernbereich, der Vorkernbereich und der Nachkernbereich, enthält Informationen, die für die Erkennung eines Begriffs, das heißt des Konzepts, wichtig sind.
Die Länge der Teile, das heißt die Anzahl der in dem jeweiligen Teil enthaltenen Worte und/oder Nummern ist gemäß der Erfindung nicht beschränkt.
Der Kernbereich muss mindestens ein Wort, das heißt eine alphabetische Zeichenfolge und/oder eine numerische Angabe, das heißt eine numerische Zeichenfolge enthalten.
Aus diesem Grund kann ein Klassifizierer für die Erkennung von einfachen Zeichenfolgen, wie zum Beispiel einer Kombination aus Nummern und Worten, bis zur Klassifizierung von größeren Textteilen mit einer Mehrzahl oder Vielzahl von alphanumerischen oder numerischen Zeichenfolgen eingesetzt werden.
Es ist jeweils eine Linie 406 verbunden mit einem Basisbegriff 405 und demjenigen Textbeispiel 401, 402, 403, aus dem der jeweilige Basisbegriff 405 extrahiert worden ist.
Soll nun geprüft werden, ob ein neues Textbeispiel 404 als neuer Fall 407 zu den in der Datenbank zuvor gespeicherten Fällen 408, das heißt dem ersten Textbeispiel 401, dem zweiten Textbeispiel 402, dem dritten Textbeispiel 403 hinzufügt wird, so werden gemäß der im Zusammenhang mit Fig. 3 dargelegten Vorgehensweise weitere Basisbegriffe 409 aus dem neuen Textbeispiel 404 ermittelt, die in ausreichender Weise mit einem Basisbegriff 405 aus den gespeicherten Fällen 408 übereinstimmen.
Gemäß diesem Ausführungsbeispiel ist der Ausdruck "3,5 Sekunden" dem Ausdruck "0,5 Sekunden" des ersten Textbeispiels 401 relativ ähnlich.
Aus den Basisbegriffen 405 werden Zwischenbegriffe gemäß der zuvor beschriebenen Vorgehensweise ermittelt, gemäß diesem Ausführungsbeispiel aus den Basisbegriffen "Systemantwortzeit", "Nachhallzeit", "Fahrzeugbetriebszeit" ein erster Zwischenbegriff 409 mit dem Zwischenbegriffskern "zeit" und dem Vorkernwert "16" und dem Nachkernwert "0" sowie ein zweiter Zwischenbegriff 410 aus den Basisbegriffen "soll" und "sollte", der den Zwischenbegriffskern "soll" und den Nachkernwert "2" aufweist.
Für jedes neu zu berücksichtigende elektronische Dokument bzw. Textbeispiel wird in einer weiteren Phase die Begriffs- Vergleichsstruktur 400 dazu verwendet, um alle Instanzen der entsprechenden Begriffe zu finden, die innerhalb des neuen elektronischen Dokuments vorkommen.
Ein zyklischer Prozess wird durchgeführt vom Anfang bis zum Ende des neu hinzugefügten elektronischen Dokuments bzw.
Für jede Textstelle, das heißt für jedes Wort oder jeden numerischen Wert des elektronischen Dokuments wird ein Plausibilitätstest ausgeführt.
Der Plausibilitätstest vergleicht jedes Wort oder jeden numerischen Wert der Textstelle mit jedem Basisbegriff oder Zwischenbegriff des fallbasierten Systems, das heißt der Begriffs-Vergleichsstruktur 400, um herauszufinden, ob die Textstelle, das heißt das jeweilige Wort oder der jeweilige numerische Wert einem Basisbegriff oder einem Zwischenbegriff zugeordnet werden kann, das oder der zu einem Zwischenbegriffskern gehört.
Wenn der Plausibilitätstest erfolgreich ist, werden mehrere Fälle aus der betrachteten Textstelle des neuen elektronischen Dokuments temporär generiert.
Diese Fälle werden mit den gespeicherten Fällen 408 verglichen, die in der Datenbank des fallbasierten Systems gespeichert sind, das heißt in der Begriffs- Vergleichsstruktur 400 schon berücksichtigt sind, um eine Klassifizierungsentscheidung treffen zu können, ob ein temporär generierter Fall 409 mit einem gespeicherten Fall 408 übereinstimmt.
Für jeden neuen Fall 407 werden diejenigen gespeicherten Fälle 408 ermittelt, deren Ähnlichkeit hinsichtlich der folgenden Faktoren größer ist als ein vorgegebener Schwellenwert:
  • - Wie viele Basisbegriffe und/oder Zwischenbegriffe sind in beiden Fällen 407, 408 enthalten?
  • - Wo liegen die Basisbegriffe in den beiden Fällen 407, 408, das heißt anschaulich, was ist der Abstand zu dem jeweiligen Kernbereich des Falls 408?
  • - Ist die Reihenfolge der berücksichtigten Basisbegriffe in den zwei Fällen 407, 408 gleich?
Verglichen mit den Verfahren gemäß dem Stand der Technik, wie beispielsweise den Regellernverfahren, werden die oben beschriebenen Faktoren als Präferenzen anstatt als starke Einschränkungen behandelt.
Ein neuer Fall 407 wird somit temporär in die Datenbank, das heißt die Begriffs-Vergleichsstruktur des fallbasierten Systems eingetragen.
Für jedes Wort und für jede Nummer, die aus dem neuen Textbeispiel des neuen Falls 407 extrahiert werden, wird das entsprechend ähnliche Wort bzw. die ähnliche Nummer aus einem anderen Textbeispiel ermittelt.
Der entsprechende Basisbegriff muss nicht identisch mit dem ursprünglichen Basisbegriff oder Zwischenbegriff aus dem zuvor gespeicherten Textbeispiel 401, 402, 403 sein.
Gemäß diesem Ausführungsbeispiel ist es ausreichend, dass das Wort "Sekunden" dem Wort "Sekunde" aus dem Kernbereich des ersten Textbeispiels 401 ausreichend ähnlich ist sowie der Zahlenwert "3,5" aus dem neuen Textbeispiel 404 ausreichend ähnlich ist zu dem Zahlenwert "0,5" des Kernbereichs des ersten Textbeispiels 401.
Es ist in diesem Zusammenhang anzumerken, dass nicht nur ein Vergleich mit Basisbegriffen, sondern auch ein Vergleich mit Zwischenbegriffen möglich ist.
Ferner ist es alternativ vorgesehen, dass für den Fall, dass kein entsprechender Basisbegriff oder Zwischenbegriff zu einem aus einem neuen Textbeispiel extrahierten Zeichenfolge existiert, diese Zeichenfolge nicht gespeichert wird.
So werden beispielsweise Stoppwörter, das heißt Wörter, die keine statistische Vorhersagerelevanz aufweisen, nicht in der Begriffs-Vergleichsstruktur 400 gespeichert.
Nach dem Speichern des neuen Falles 407 in die Datenbank das fallbasierten Systems werden ähnliche Fälle gemäß folgender Vorgehensweise ermittelt.
Zuerst wird ein Aktivationswert für jeden Basisbegriff des neuen Falls 407 initialisiert.
Die Größe dieses Aktivationswerts hängt gemäß diesem Ausführungsbeispiel von folgenden drei Faktoren ab:
  • - Das ursprüngliche Gewicht des Basisbegriffs, das die Vorhersagerelevanz bestimmt;
  • - ein Positionsgewicht innerhalb des jeweiligen Falls; das Positionsgewicht entspricht 1 für Basisbegriffe, die innerhalb des Kernbereichs des Textbeispiels vorkommen. Sonst tendiert das Positionsgewicht zu dem Wert "0" mit wachsendem Abstand des Basisbegriffs von dem Kernbereich des Textbeispiels;
  • - ein Ähnlichkeitswert, der beschreibt, wie ähnlich der Basisbegriff dem jeweiligen Basisbegriff eines zuvor gespeicherten Textbeispiels ist.
Fig. 5 zeigt für ein Textbeispiel 500, für den Vorkernbereich 501, den Kernbereich 502 sowie den Nachkernbereich 503 den Verlauf der Positionsgewichtfunktion 504.
In dem Kernbereich 502 weist die Positionsgewichtfunktion 504 den Wert 1 auf.
Ausgehend von dem Kernbereich 502 fällt die Positionsgewichtungsfunktion monoton, vorzugsweise streng monoton, in Richtung sowohl des Vorkernbereichs 501, als auch des Nachkernbereichs 503 bis auf den Wert 0.
Jeder Aktivationswert enthält gemäß diesem Ausführungsbeispiel ferner einen Positionsindex, der die relative Position des entsprechenden Basisbegriffs innerhalb des neuen Falls, das heißt innerhalb des neuen Textbeispiels 401 spezifiziert.
So weist beispielsweise der erste Basisbegriff des Vorkernbereichs 501 einen Positionsindex mit dem Wert "0" auf, ein zweites Element des Vorkernbereichs 502 den Positionsindex "1", usw.
Durch Einsatz des Positionsindex ist es möglich, die Reihenfolge der Basisbegriffe im Weiteren zu berücksichtigen.
In einem weiteren Schritt werden die Aktivationswerte innerhalb der Begriffs-Vergleichsstruktur propagiert, wie in Fig. 6 dargestellt.
Im Rahmen der Propagierung wird jeweils ein übereinstimmender Basisbegriff bzw. Zwischenbegriff mit dem Aktivationswert "1" zugeordnet und jedem einer in Richtung des Textbeispiels untergeordneten Hierarchieebene der Begriffs- Vergleichsstruktur wird jeweils ein Aktivationswert zugeordnet, der um einen vorgebbaren Wert, gemäß diesem Ausführungsbeispiel einem Wert 1 inkrementiert wird, zugeordnet, wenn der entsprechende Zwischenbegrift oder Basisbegriff mit demjenigen Begriff, dem ein Aktivationswert mit dem Wert "1" zugeordnet ist, über eine Verbindungsstruktur 411, 406 verbunden ist.
So weist gemäß diesem Ausführungsbeispiel der erste Zwischenbegriff "<16< Zeit <0<" den Aktivationswert 1 auf, ebenso wie die Basisbegriffe "Sekunden" und "0,5".
Den über erste Verbindungen 411 mit dem ersten Zwischenbegriff 409 gekoppelten Basisbegriffen "Systemantwortzeit", "Nachhallzeit", "Fahrzeugbetriebszeit" wird ein erster propagierter Aktivationswert mit dem Wert "2" zugeordnet.
Weiterhin wird den Textbeispielen 401, 402, 403, die mit den mit einem Aktivationswert zugeordneten Basisbegriffen über eine weitere Kopplung 406 gekoppelt sind, ein zweiter propagierter Aktivationswert zugewiesen, gemäß diesem Ausführungsbeispiel mit dem Wert "3".
Anschaulich wird der Wert des jeweiligen Aktivationswerts größer mit wachsender Distanz des entsprechenden Zwischenbegriffs bzw. Basisbegriffs innerhalb der Hierarchie der Begriffs-Vergleichsstruktur.
Bei der Bildung des zweiten propagierten Aktivationswertes wird die Reihenfolge der entsprechenden Basisbegriffe berücksichtigt, das heißt es folgt eine lokale Propagierung.
Die Aktivation, die aus dem neuen Fall entsteht, wird von jedem Basisbegriff des ermittelten Textbeispiels 401, 402, 403 zu dem nachfolgenden Basisbegriff des neuen Textbeispiels 404 propagiert.
So wird beispielsweise die Aktivation, die am ersten Basisbegriff des Vorkernbereichs eines berücksichtigten Textbeispiels 401, 402, 403 liegt, zu dem zweiten Basisbegriff des Vorkernbereichs geschickt.
Die Größe der Wirkung auf die Aktivation, die im nachfolgenden Basisbegriff liegt, hängt von folgenden zwei Faktoren ab:
  • - Der Größe der Aktivation im ersten Basisbegriff, und
  • - der relativen Position der zwei Aktivationen zueinander, wie sie in den Positionsindizes beschrieben werden.
Die maximale Aktivation fließt dann, wenn die Reihenfolge der Aktivationspositionen genau übereinstimmt, beispielsweise die Aktivation mit Positionsindex 0 wird zur Aktivation mit Positionsindex 1 propagiert.
Der Aktivationsfluss wird kleiner mit wachsenden Abstand zwischen den Positionsindizes, beispielsweise:
Ein erster Aktivationsfluss von Positionsindex 0 zu Positionsindex 3 ist kleiner als ein zweiter Aktivationsfluss des Positionsindex 0 zu Positionsindex 2, welcher zweite Aktivationsfluss wiederum kleiner ist als ein dritter Aktivationsfluss von dem Positionsindex 0 zu dem Positionsindex 1.
Wenn die Reihenfolge der Aktivationen umgekehrt ist, das heißt der Positionsindex des zweiten Basisbegriffs kleiner ist oder gleich ist dem Positionsindex des ersten Basisbegriffs, wird die Größe des Aktivationsflusses gemäß diesem Ausführungsbeispiel erheblich reduziert, was anschaulich bedeutet, dass ein vierter Aktivationsfluss von dem Positionsindex 1 zu dem Positionsindex 0 kleiner ist als ein fünfter Aktivationsfluss von dem Positionsindex 0 zu dem Positionsindex 0, welcher fünfte Aktivationsfluss wiederum kleiner ist als ein sechster Aktivationsfluss von dem Positionsindex 0 zu dem Positionsindex 1.
Die lokale Propagierung von Aktivationen ist vorteilhaft, weil sie die sequentielle Beziehung zwischen unterschiedlichen Basisbegriffen bzw. Zwischenbegriffen eines Falls wieder aufbaut.
Am Ende des Aktivierungsvorgangs liegt für jedes Textbeispiel 401, 402, 403, der in der Datenbank des fallbasierten Systems gespeichert ist, eine Aktivationsverteilung vor.
Jede Aktivationsverteilung wird in einem einzelnen Aktivations-Ähnlichkeitswert zusammengefasst, wie in Fig. 6 als Aktivations-Ähnlichkeitswert 601 dargestellt ist.
Der Aktivations-Ähnlichkeitswert 600 ergibt sich gemäß folgender Vorschrift:
Ein Fall F (z. B. 401, 402, oder 403) aus der Fallbasis habe die n Terme T1, . . ., Tn. Dabei ist die Reihenfolge der Terme definiert durch die Reihenfolge, wie sie im Fall F auftreten
Für einen Term Ti wird mit Act(Ti) der Activationswert zu diesem Term bezeichnet.
Im folgenden wird beschrieben, wie über diese Activationswerte innerhalb des Falles F propagiert wird, um für jeden dieser Terme neue Activationswerte zu berechnen, mit denen abschließend der Activationsähnlichkeitswert des Falles berechnet wird.
Die Propagierung innerhalb des Falles geschieht mit Hilfe des folgenden iterativen Verfahrens:
Zum Start des Verfahrens erhalten die Activationswerte Act(Ti) als Initialwerte die Werte, die durch Propagierung von dem neuen Fall (404) über die Begriffsvergleichsstruktur zum jetzt betrachteten Fall F ermittelt wurden. D. h. die zuvor berechnete Activationsverteilung bildet die Initialwerte für die Propagierung innerhalb des Falles.
Die Activation wird von Term T1 zu T2 propagiert, von T2 zu T3 propagiert, usw.
Ti - 1 popagiert den Wert ActInc(Ti - 1) zu Ti wobei gesetzt wird:
ActInc (Ti - 1) = Inference(C1.Act(Ti - 1), Ti - 1, Ti)
0 < C1 < 1 - C1 ist eine Konstante
Inference ist eine Skalierungsfunktion, die noch
beschrieben wird.
In der Praxis hat sich z. B. der Wert 0,2 für C1 als tauglich erwiesen.
Als Inferencefunktion wird benutzt (siehe auch [7]):
Inference(A, Ti - 1, Ti) = A.(C2/(1 + C3. Distance(Colour(Act(Ti - 1)), Colour(Act((Ti)))).
C2 und C3 sind Konstanten, z. B. C2 = 1,5 und C3 = 0,5 Distance(x, y) = |x - y|, wenn x <= y, unendlich für x < y Colour(Act (Ti)) = relative Position des Terms des Falls 404, von welcher die Activation vor der Propagierung durch die Begriffsvergleichsstruktur stammt. relative Position des ersten Terms = 1, des zweiten = 2 usw.
Ti kombinert die neue Activation Actlnc(Ti - 1) mit seiner eigenen Activation:
Act-neu(Ti) = Act-alt(Ti) + ((1 - Act-alt(Ti)).ActInc(Ti - 1))
Mit Hilfe dieser Vorschriften kann nun von T1 bis Tn propagiert werden. Es entstehen für alle Terme neue Aktivationswerte Act-neu(T1), . . ., Act-neu(Tn). Damit ist eine Iteration abgeschlossen.
Es hat sich als zweckmäßig erwiesen, die Iteration mit diesen neuen Aktivationswerten als Initialwerte zu wiederholen.
Zum Beispiel ergaben 5 Iterationen sehr gute Activationswerte. Die abschließenden Aktivationswerte Act- final(T1), . . .Act-final(Tn) nach der letzten Iteration werden nun benutzt, um den Activationsähnlichkeitswert für den Fall zu berechnen.
Es hat jeder Term T1 ein Gewicht Wi. Dann ergibt sich:
Aktivationsähnlichkeitswert (F) = Summe(Act-final(Ti).Wi)/ Summe (Wi)
Gemäß diesem Ausführungsbeispiel werden die einzelnen Aktivationswerte aufsummiert.
Das Aufsummieren wird anschließend normalisiert auf die Basis der Summe der Gewichte der Basisbegriffe, die in beiden berücksichtigten Textbeispielen 401, 402, 403 bzw. 404 vorliegen.
Aufgrund der ermittelten Aktivations-Ähnlichkeitswerte 600 werden die Textbeispiele 401, 402, 403, die in der Datenbank des fallbasierten Systems als Fälle 408 gespeichert sind, geordnet.
Die Entscheidung, ob das neue Textbeispiel 404 als neuer Fall 407 eine Instanz eines bestimmten Konzepts, das heißt einem Begriff ist, wird auf Basis der Fälle 407, die die größten Aktivations-Ähnlichkeitswerte zugewiesen bekommen haben, getroffen.
Wenn beispielsweise der Aktivations-Ähnlichkeitswert des ersten Falls 401 größer ist als ein vorgegebener Schwellenwert, so wird das neue Textbeispiel 404 als eine Instanz des betrachteten Konzepts klassifiziert und als neuer Fall 407 in der Datenbank zur Charakterisierung des Konzepts gespeichert.
Ist der Aktivations-Ähnlichkeitswert jedoch nicht größer als der vorgegebene Schwellenwert, wird das neue Textbeispiel 404 nicht als eine Instanz des Konzepts betrachtet und somit nicht als neuer Fall 407 in der Datenbank des fallbasierten Systems gespeichert.
Der Schwellenwert wird gemäß diesem Ausführungsbeispiel automatisch von dem fallbasierten System am Ende der Trainingsphase ermittelt.
Die Aktivations-Ähnlichkeitswerte jedes Falls 401, 402, 403, der in der Datenbank gespeichert ist, zu jedem anderen Fall, wird gemäß dem oben beschriebenen Verfahrens des Aktivierungsprozesses erstellt.
Auf diese Weise kann eine durchschnittliche interne Ähnlichkeit innerhalb des fallbasierten Systems ermittelt werden.
Trotzdem bleibt der Vorteil, dass der Schwellenwert veränderbar ist, um ihn an die Anforderungen einer spezifischen Anwendung anzupassen, bestehen.
Eine Vergrößerung des Schwellenwerts bewirkt eine bessere Präzision des fallbasierten Systems, das heißt, es werden nur eine geringe Anzahl falscher Instanzen eines Konzepts in einem neuen elektronischen Dokument gefunden.
Umgekehrt reduziert eine Verringerung des Schwellenwerts die Gefahr, dass eine tatsächliche Instanz des betrachteten Konzepts in einem neuen elektronischen Dokument nicht als Instanz in der Datenbank gespeichert wird.
Für jeden Fall wird von dem fallbasierten System jeweils ein Klassifikationswert ermittelt, mit dem angegeben wird, wie sicher die Klassifikation des jeweiligen neuen Falles 404 ist, das heißt wie weit sich der ermittelte Aktivations- Ähnlichkeitswert oberhalb bzw. unterhalb des Schwellenwerts befindet.
Der Klassifikationswert wird jeweils für spätere Suchen und Klassifikationen weiterer Dokumente verwendet.
Es ist in diesem Zusammenhang anzumerken, dass auch eine Unähnlichkeit zweier Textbeispiele im Rahmen der Gesamtbetrachtung berücksichtigt werden kann.
Fig. 7 zeigt zusammengefasst die gesamte Vorgehensweise gemäß einem Ausführungsbeispiel der Erfindung.
Für n Konzepte, das heißt Begriffe, wird aus Trainingsdaten 700 für jedes Konzept (Block 701) das fallbasierte System trainiert (Block 702).
Die ermittelten Fälle des fallbasierten Systems gemäß dem Trainingsverfahren wird in einer Datenbank 703 des fallbasierten Systems gespeichert.
Für ein neues elektronisches Dokument 704 wird für jedes in der Datenbank 703 gespeicherte Konzept und unter Verwendung der jeweils in der Datenbank 703 gespeicherten Fälle (Block 705) ermittelt, ob die entsprechenden Textelemente in dem neuen elektronischen Dokument 704 eine Instanz sind, des jeweiligen berücksichtigten Konzepts (Block 706) und falls dies der Fall ist, so wird der entsprechende Textbereich als neuer Fall in der Datenbank 703 als neuer Fall gespeichert.
Fig. 8 zeigt in einem Überblick die Vorgehensweise einer im Rahmen einer Trainingsphase zum Trainieren des fallbasierten Systems für ein einzelnes Konzept.
Unter Verwendung für die Trainingsphase berücksichtigter elektronischer Dokumente 801 werden in einem ersten Schritt (Schritt 802) Basisbegriffe extrahiert und in einem weiteren Schritt (Schritt 803) gewichtet.
In einem weiteren Schritt (Schritt 804) werden die Basisbegriffe zu Zwischenbegriffen gemäß dem oben beschriebenen Vorgehen generalisiert und es werden Fälle erzeugt, das heißt Textbeispiele aus den elektronischen Dokumenten 801 extrahiert (Schritt 805).
Für die generierten Textbeispiele wird jeweils gemäß dem oben beschriebenen Vorgehen untersucht, ob das jeweilige Textbeispiel ein Fall ist, dessen Aktivations- Ähnlichkeitswert größer ist als der vorgegebene Schwellenwert und somit als ein das jeweilige Konzept charakterisierendes Textbeispiel, das heißt Fall, in der Datenbank 806 gespeichert wird.
In einem letzten Schritt (Schritt 807) wird der Schwellenwert ermittelt.
Fig. 1 zeigt in der Anwendungsphase die Vorgehensweise unter Verwendung der Begriffs-Vergleichsstruktur 100, welche in einer Datenbank des fallbasierten Systems 101 gespeichert ist, für ein neues elektronisches Dokument 102, ob das jeweilige neue elektronische Dokument 102 Fälle enthält, die ausreichend ähnlich sind mit in dem fallbasierten gespeicherten Fällen 103, 104, 105.
Für jedes aus dem neuen elektronischen Dokument 102 extrahiertes Wort oder für jede numerische Zeichenfolge (Block 106) wird untersucht, ob der entsprechende Basisbegriff ausreichend ähnlich ist einem Bereich eines Kernbereichs in dem in einem gespeicherten Fall 103, 104, 105 (Prüfschritt 107).
Ist dies nicht der Fall, so wird die Prüfung für ein neues Wort des neuen elektronischen Dokuments 102 wiederholt.
Ist für einen Begriff jedoch festgestellt worden, dass der Basisbegriff möglicherweise einem Kernbereich ausreichend ähnlich ist, so wird für jede mögliche Fallgröße ein neuer Fall generiert (Schritt 108, 109) und es erfolgt eine fallbasierte Klassifizierung des neuen Falls (Schritt 110) gemäß dem oben beschriebenen Verfahren.
Ist die Klassifizierung erfolgreich, was in einem weiteren Prüfschritt (Schritt 111) überprüft wird, so wird der Fall in der Datenbank 101 des fallbasierten Systems gespeichert (Schritt 112).
Ist dies nicht der Fall, so wird ein neuer Fall generiert (Schritt 109) und es erfolgt wiederum ein Verfahrensschritt der fallbasierten Klassifizierung des neu generierten Falls (Schritt 110).
Anschließend wird das Verfahren beendet (Schritt 113).
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] VLSI Circuit Structure for Determining the Edit Distance Between Strings N. Ranganathan and Raghu Sastry, University of South Florida, Center for Microelectronics. US Patent 5,553,272 USF Reference: Ranganathan 93A10
[2] R. Weischedel et al. The PLUM Systems Group, BBN: Description of the PLUM System as Used for MUC-5, Proceedings of the 5th Message Understanding Conference, 1993
[3] R. Gaizauskas et al. University of Sheffield: Description of the LaSIE System as Used for MUC-6, Proceedings of the 6th Message Understanding Conterence, 1995
[4] D. E. Appelt et al. SRI: Description ot the JV-FASTUS System Used tor MUC-5, Proceedings of the 5th Message Understanding Conterence, 1993
[5] A. Dengel et al. OFFICEMAID - A System for Office Mail Analysis, Interpretation and Delivery, Proceedings of DAS94, Kaiserslautern, 1994
[6] C. Cardie, A Case-Based Approach to Knowledge Acquisition tor Domain Specific Sentence Analysis, Proceedings of the 11th National Conference of Artificial Intelligence (AAAI-93), AAAI Press, 1993
[7] Brown, M.: "A Memory Model for Case Retrieval by Activation Passing" - Phd Thesis, The University of Manchester, 1993

Claims (27)

1. Vorrichtung zum Ermitteln einer Begriffs- Vergleichsstruktur zum Ermitteln von Elementen aus mindestens einem elektronischen Dokument,
mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
2. Vorrichtung nach Anspruch 1, bei der der Prozessor derart eingerichtet ist, dass die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus den Basisbegriffen.
3. Vorrichtung nach Anspruch 1 oder 2, bei der der Prozessor derart eingerichtet ist, dass die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus Begriffen aus einem elektronischen Thesaurus.
4. Vorrichtung nach einem der Ansprüche 1 bis 3, bei der der Prozessor derart eingerichtet ist, dass zumindest ein Teil der vorgegebenen Basisbegriffe aus einem elektronischen Dokument ermittelt werden.
5. Vorrichtung nach einem der Ansprüche 1 bis 4, bei der der Prozessor derart eingerichtet ist, dass
der Zwischenbegriff gebildet wird aus der übereinstimmenden Zeichenketten zumindest zweier vorgegebener Begriffe, aus denen der Zwischenbegriff gebildet wird, oder
der Zwischenbegriff gebildet wird aus einem Intervall, das begrenzt wird aus zwei Werteangaben, die durch zumindest zwei vorgegebenen Begriffen beschrieben werden.
6. Vorrichtung nach einem der Ansprüche 1 bis 5, bei der der Prozessor derart eingerichtet ist, dass die Begriffs-Vergleichsstruktur hierarchisch strukturiert wird.
7. Vorrichtung nach einem der Ansprüche 1 bis 6, bei der der Prozessor derart eingerichtet ist, dass jedem vorgegebenem Begriff und/oder jedem Zwischenbegriff ein Aktivationswert zugeordnet wird.
8. Vorrichtung nach Anspruch 7, bei der der Prozessor derart eingerichtet ist, dass jedem Zwischenbegriff ein gewichteter Aktivationswert zugeordnet wird abhängig von den Aktivationswerten der Begriffe, aus denen der Zwischenbegriff gebildet wird.
9. Vorrichtung nach Anspruch 7 oder 8, bei der der Prozessor derart eingerichtet ist, dass jedem Zwischenbegriff ein Aktivationswert zugeordnet wird abhängig von der Ähnlichkeit der Begriffe, aus denen der Zwischenbegriff gebildet wird gemäß einem vorgegebenen Ähnlichkeitskriterium.
10. Vorrichtung zum Ermitteln von Begriffen in einem elektronischen Dokument,
mit einem Prozessor, der derart eingerichtet ist, dass folgende Schritte durchführbar sind:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
11. Vorrichtung nach Anspruch 10, bei der der Prozessor derart eingerichtet ist, dass die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus den Basisbegriffen.
12. Vorrichtung nach Anspruch 10 oder 11, bei der der Prozessor derart eingerichtet ist, dass die Begriffs-Vergleichsstruktur zusätzlich gebildet wird aus Begriffen aus einem elektronischen Thesaurus.
13. Vorrichtung nach einem der Ansprüche 10 bis 12, bei der der Prozessor derart eingerichtet ist, dass zumindest ein Teil der vorgegebenen Basisbegriffe aus einem elektronischen Dokument ermittelt werden.
14. Vorrichtung nach einem der Ansprüche 10 bis 13,
bei der der Prozessor derart eingerichtet ist, dass
der Zwischenbegriff gebildet wird aus der übereinstimmenden Zeichenketten zumindest zweier vorgegebener Begriffe, aus denen der Zwischenbegriff gebildet wird, oder
der Zwischenbegriff gebildet wird aus einem Intervall, das begrenzt wird aus zwei Werteangaben, die durch zumindest zwei vorgegebenen Begriffen beschrieben werden.
15. Vorrichtung nach einem der Ansprüche 10 bis 14, bei der der Prozessor derart eingerichtet ist, dass die Begriffs-Vergleichsstruktur hierarchisch strukturiert wird.
16. Vorrichtung nach einem der Ansprüche 10 bis 15, bei der der Prozessor derart eingerichtet ist, dass jedem vorgegebenem Begriff und/oder jedem Zwischenbegriff ein Aktivationswert zugeordnet wird.
17. Vorrichtung nach Anspruch 16, bei der der Prozessor derart eingerichtet ist, dass jedem Zwischenbegriff ein gewichteter Aktivationswert zugeordnet wird abhängig von den Aktivationswerten der Begriffe, aus denen der Zwischenbegriff gebildet wird.
18. Vorrichtung nach Anspruch 16 oder 17, bei der der Prozessor derart eingerichtet ist, dass jedem Zwischenbegriff ein Aktivationswert zugeordnet wird abhängig von der Ähnlichkeit der Begriffe, aus denen der Zwischenbegriff gebildet wird gemäß einem vorgegebenen Ähnlichkeitskriterium.
19. Vorrichtung nach einem der Ansprüche 16 bis 18, bei der der Prozessor derart eingerichtet ist, dass im Rahmen des fallbasierten Schließens für jeden berücksichtigten Begriff in dem elektronischen Dokument die den Zwischenwerten zugeordneten Aktivierungswerte berücksichtigt werden.
20. Vorrichtung nach einem der Ansprüche 16 bis 19, bei der der Prozessor derart eingerichtet ist, dass im Rahmen des fallbasierten Schließens für mehrere berücksichtigte Begriffe ein gemeinsamer Gesamt- Aktivierungswert ermittelt wird, mit dem beschrieben wird, wie ähnlich die Gesamtheit der mehreren berücksichtigten Begriffe zu den jeweiligen vorgegebenen Begriffen bzw. den Zwischenbegriffen der Begriffs-Vergleichsstruktur sind.
21. Vorrichtung nach Anspruch 20, bei der der Prozessor derart eingerichtet ist, dass die Reihenfolge der gemeinsam berücksichtigten Begriffe in dem elektronischen Dokument sowie der entsprechenden Begriffe den Zwischenbegriffen der Begriffs-Vergleichsstruktur bei der Ermittlung des Gesamt-Aktivierungswert berücksichtigt wird.
22. Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur zum Ermitteln von Elementen aus mindestens einem elektronischen Dokument,
bei dem aus vorgegebenen Basisbegriffen Zwischenbegriffe ermittelt werden,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
bei dem die Begriffs-Vergleichsstruktur zumindest aus den ermittelten Zwischenbegriffen gebildet wird.
23. Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument,
bei dem aus vorgegebenen Basisbegriffen Zwischenbegriffe ermittelt werden,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
bei dem die Begriffs-Vergleichsstruktur zumindest aus den ermittelten Zwischenbegriffen gebildet wird,
bei dem unter Verwendung der Begriffs-Vergleichsstruktur mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt werden.
24. Computerlesbares Speichermedium, in dem ein Computerprogramm zum Ermitteln einer Begriffs- Vergleichsstruktur zum Ermitteln von Elementen aus mindestens einem elektronischen Dokument gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
25. Computerlesbares Speichermedium, in dem ein Computerprogramm zum Ermitteln von Begriffen in einem elektronischen Dokument gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
26. Computerprograrmm-Element zum Ermitteln einer Begriffs- Vergleichsstruktur zum Ermitteln von Elementen aus mindestens einem elektronischen Dokument, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält, und
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet.
27. Computerprogramm-Element zum Ermitteln von Begriffen in einem elektronischen Dokument, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
aus vorgegebenen Basisbegriffen werden Zwischenbegriffe ermittelt,
wobei jeweils aus mehreren Basisbegriffen ein Zwischenbegriff gebildet wird,
wobei jeder Zwischenbegriff zumindest einen Teil eines Basisbegriffs enthält,
die Begriffs-Vergleichsstruktur wird zumindest aus den ermittelten Zwischenbegriffen gebildet,
unter Verwendung der Begriffs-Vergleichsstruktur werden mittels fallbasiertem Schließen Begriffe in dem elektronischen Dokument ermittelt.
DE10112571A 2001-03-15 2001-03-15 Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente Withdrawn DE10112571A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10112571A DE10112571A1 (de) 2001-03-15 2001-03-15 Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10112571A DE10112571A1 (de) 2001-03-15 2001-03-15 Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente

Publications (1)

Publication Number Publication Date
DE10112571A1 true DE10112571A1 (de) 2002-09-26

Family

ID=7677634

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10112571A Withdrawn DE10112571A1 (de) 2001-03-15 2001-03-15 Vorrichtung und Verfahren zum Ermitteln einer Begriffs-Vergleichsstruktur sowie Vorrichtung und Verfahren zum Ermitteln von Begriffen in einem elektronischen Dokument, Computerlesbare Speichermedien und Computerprogramm-Elemente

Country Status (1)

Country Link
DE (1) DE10112571A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007010259A1 (de) 2007-03-02 2008-09-04 Volkswagen Ag Sensor-Auswertevorrichtung und Verfahren zum Auswerten von Sensorsignalen

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Longest Common Substring: http//turing.wins.uva. n1/-leen/BOOK/BOOKS/NODE208.HTM, 2. Juni 1997 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007010259A1 (de) 2007-03-02 2008-09-04 Volkswagen Ag Sensor-Auswertevorrichtung und Verfahren zum Auswerten von Sensorsignalen

Similar Documents

Publication Publication Date Title
DE69934371T2 (de) Apparat und Verfahren zum Verarbeiten einer natürlichen Sprache
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69728282T2 (de) System und verfahren zur extraktion und kodierung von medizinischer fachsprache
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
EP1135767B1 (de) Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
DE112007000053T5 (de) System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE3901485A1 (de) Dokumenten-wiedergewinnungssystem
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE102021209171A1 (de) System zum wählen eines lernenden modells

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal