DE10229598A1 - Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen - Google Patents

Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen Download PDF

Info

Publication number
DE10229598A1
DE10229598A1 DE2002129598 DE10229598A DE10229598A1 DE 10229598 A1 DE10229598 A1 DE 10229598A1 DE 2002129598 DE2002129598 DE 2002129598 DE 10229598 A DE10229598 A DE 10229598A DE 10229598 A1 DE10229598 A1 DE 10229598A1
Authority
DE
Germany
Prior art keywords
search
unit
correlation
data
search terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE2002129598
Other languages
English (en)
Inventor
Jürgen Prof. Dr. Angele
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ontoprise GmbH
Original Assignee
ontoprise GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ontoprise GmbH filed Critical ontoprise GmbH
Priority to DE2002129598 priority Critical patent/DE10229598A1/de
Publication of DE10229598A1 publication Critical patent/DE10229598A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Datenverarbeitungssystem (1) mit wenigstens einer Speichereinheit (2) zur Speicherung von Daten, mit wenigstens einer Rechnereinheit (4) zur Generierung eines Objektmodells zur Strukturierung von Daten, mit wenigstens einer Suchmaschine, in welcher für vorgebbare Suchbegriffe mittels Regeln Suchausdrücke generierbar sind, und mit einer der Suchmaschine zugeordneten Korrelationseinheit, mittels derer ein Korrelationsgrad für die Suchbegriffe bestimmbar ist.

Description

  • Die Erfindung betrifft ein Datenverarbeitungssystem und ein Verfahren zur Durchführung von Datenrecherchen.
  • Ein Datenverarbeitungssystem zur Durchführung von Datenrecherchen ist aus der WO 99/48027 bekannt. Dieses weist eine Benutzereinheit, eine Speichereinheit und eine Verbindung zu einem elektronischen Datenbestand auf. Weiterhin ist eine Suchmaschine vorgesehen, mittels derer in dem Datenbestand Datenrecherchen durchgeführt werden können. Hierzu sind eine Vielzahl von Suchformulierungen für die Suchmaschine als Knoten und Kanten eines semantischen Netzes abgespeichert. Diese Suchformulierungen sind zur Durchführung einer Datenrecherche zu einer komplexen Suchanweisung zusammensetzbar.
  • Dabei bilden Suchanfragen, d.h. recherchierbare Suchbegriffe die Knoten des semantischen Netzes. Die Kanten des semantischen Netzes sind von Verknüpfungsanweisungen gebildet, die verschiedene Knoten des semantischen Netzes verbinden.
  • Die Knotenstruktur des semantischen Netzes ist von einem sogenannten topic map gebildet. Diese Struktur weist eine vorgegebene Anzahl von Hauptknoten auf, welchen jeweils Unterknoten zugeordnet sind. Die Eigenschaften von Hauptkonten werden dabei an die jeweils untergeordneten Unterknoten weitervererbt.
  • Die Struktur der Knoten und Unterknoten wird dem Benutzer des Datenverarbeitungssystems in tabellarischer Form oder in Form einer Baumstruktur angezeigt. Anhand dieser Anzeige wählt der Benutzer eine vorgegebene Anzahl von Knoten, d.h. Suchbegriffen aus. Durch die festgelegte Knoten- und Kantenstruktur sind die ausgewählten Knoten mit vorgegebenen logischen Verknüpfungen in Beziehung gesetzt. Dadurch wird erreicht, dass durch die Auswahl der Knoten diese zur Bildung der jeweiligen Suchformulierung entsprechend der Kantenstruktur logisch verknüpft werden.
  • Mit einem derartigen Datenverarbeitungssystem können insbesondere komplexe Suchformulierungen generiert werden, um bestimmte Textdokumente innerhalb eines Datenbestandes zu ermitteln.
  • Mittels des Datenverarbeitungssystems kann für die vorgegebenen Suchbegriffe ermittelten Textdokumente selbsttätig eine Inhaltsangabe erstellt werden. Hierzu wird der Textinhalt des jeweiligen Textdokuments mit dem dem Suchbegriff zugeordneten Suchknoten des semantischen Netzes und zu diesem benachbarten Knoten verglichen. Zur Generierung der Inhaltsangabe wird bei Übereinstimmung jeweils eines dieser Knoten mit dem Textinhalt des Textdokuments der Suchbegriff dieses Knotens in eine Datei geschrieben.
  • Dabei kann eine Hierarchisierung der zu einem Suchbegriff ermittelten Textdokumente gemäß einem Ranking-Verfahren durchgeführt werden. Hierbei werden die Abstände der Suchbegriffe des Suchknotens und der benachbarten Knoten in dem Textinhalt des jeweiligen Textdokuments ausgewertet.
  • Mit diesem Verfahren werden die bei der Datenrecherche ermittelten Textdokumente hinsichtlich ihrer Relevanz klassifiziert.
  • Nachteilig bei derartigen Datenverarbeitungssystemen ist jedoch, dass das bestehende semantische Netz, insbesondere die Kanten dieses Netzes, nicht mehr geändert werden können. Vielmehr sind die einzelnen Suchbausteine des semantischen Netzes abgespeichert und damit fest vorgegeben.
  • Dies schränkt die Flexibilität der durchzuführenden Datenrecherchen in unerwünschter Weise ein.
  • Zudem ist nachteilig, dass die Generierung des semantischen Netzes selbst äußerst komplex ist, da die einzelnen Knoten über die Kanten des Netzes einzeln zu verbinden sind. Dies bedingt einen unerwünscht hohen Aufwand bei der Erstellung des semantischen Netzes, wobei insbesondere Fehler in der Knoten- und Kantenstruktur nur schwer lokalisierbar sind.
  • Schließlich ist nachteilig, dass mit derartigen Datenverarbeitungssystemen eine automatisierte Auswertung von Textdokumenten nur in eingeschränktem Umfang derart durchführbar ist, dass in einem automatisierten Prozess Inhaltsangaben für diese Textdokumente erstellbar sind.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Datenverarbeitungssystem bereitzustellen, mittels dessen eine flexible und effiziente Durchführung von Datenrecherchen ermöglicht wird.
  • Zur Lösung dieser Aufgabe sind die Merkmale der Ansprüche 1 und 7 vorgesehen. Vorteilhafte Ausführungsformen und zweckmäßige Weiterbildungen der Erfindung sind in den Unteransprüchen beschrieben.
  • Die Erfindung betrifft ein Datenverarbeitungssystem mit wenigstens einer Speichereinheit zur Speicherung von Daten, mit wenigstens einer Rechnereinheit zur Generierung eines Objektmodells zur Strukturierung von Daten, mit wenigstens einer Suchmaschine, in welcher für vorgebbare Suchbegriffe mittels Regeln Suchausdrücke generierbar sind, und mit einer der Suchmaschine zugeordneten Korrelationseinheit, mittels derer ein Korrelationsgrad für die Suchbegriffe bestimmbar ist.
  • Durch die erfindungsgemäße Bildung von Korrelationen zwischen einzelnen Suchbegriffen wird ein erweitertes Recherchensystem zur Verfügung gestellt, welches nicht darauf beschränkt ist, vorgegebene Textdokumente innerhalb eines Datenbestandes zu ermitteln, sondern vielmehr ein antwort-generierendes System bildet.
  • Dabei besteht ein Grundgedanke der Erfindung darin, dass zur Generierung von Antworten als Ergebnisse von Datenrecherchen Textdokumente eines Datenbestandes weitgehend automatisiert ausgewertet werden.
  • Die automatisierte Auswertung von Textdokumenten erfolgt erfindungsgemäß dadurch, dass durch die Bestimmung des Korrelationsgrades von wenigstens zwei Suchbegriffen der Grad der Zuordnung dieser Suchbegriffe bestimmbar ist. Auf diese Weise werden bei einer Datenrecherche nicht nur Textdokumente ermittelt, in welchen insbesondere einzelne Suchbegriffe enthalten sind. Vielmehr wird als Antwort auf eine Datenrecherche anhand der Korrelationsanalyse der im Datenbestand enthaltenen Textdokumente eine Aussage über die Existenz einer bestimmten Beziehung von Suchbegriffen als Eingabegrößen der Datenrecherche ermöglicht.
  • Die Korrelationsanalyse erfolgt dabei in einer ersten Ausführungsform gemäß einer geometrisch-statistischen Methode. Hierbei wird abgeprüft, welche Abstände die die Eingangsgrößen der Datenrecherche bildenden Suchbegriffe innerhalb der jeweils im Datenbestand enthaltenen Textdokumente aufweisen. Je geringer die Abstände der Suchbegriffe innerhalb jeweils eines recherchierten Textdokumentes sind, desto größer ist der Korrelationsgrad dieser Suchbegriffe.
  • Gemäß einer zweiten Ausführungsform der Erfindung erfolgt die Korrelationsanalyse gemäß einer linguistischen Methode. Bei diesem Verfahren wird abgeprüft, ob wenigstens zwei Suchbegriffe als Eingangsgrößen einer Datenrecher che innerhalb eines Satzes eines Textdokuments in einem vorgegebenen sprachlichen Kontext zueinander stehen.
  • In beiden Fällen wird eine automatisierte Auswertung der Textdokumente im Datenbestand erhalten, die als Ausgabegröße der Datenrecherche eine quantitative Aussage über den Grad der Zuordnung der jeweiligen Suchbegriffe liefert.
  • Ein weiterer Vorteil der Erfindung besteht darin, dass durch die Strukturierung der Daten innerhalb der Klassenstruktur des Objektmodells die Recherchenmöglichkeiten innerhalb des Datenbestandes erheblich erweitert werden.
  • Dabei ist insbesondere vorteilhaft, dass die Klassenstruktur veränderbar ist, wodurch die Strukturierung der Daten applikationsspezifisch angepasst werden kann.
  • Die Klassenstruktur bildet eine Ontologie, innerhalb derer vorzugsweise mehrere Klassen und diesen zugeordneten Unterklassen definiert sind. Diese können hierarchisch oder in Verbänden strukturiert werden. Im Gegensatz zu topic maps können den einzelnen Klassen Attribute zugeordnet sein. Diese Attribute kennzeichnen jeweils eine bestimmte Klasse der Ontologie und werden von einer Klasse zu den zugeordneten Unterklassen weitervererbt.
  • Durch die Zuordnung von Daten des Datenbestandes zu einer Ontologie können Suchanfragen in einer Datenrecherche nicht nur auf einzelne Daten sondern auf Elemente der Klassenstrukturen bezogen werden, wodurch der Umfang der Suchanfragen erheblich erweitert wird.
  • Die Suchanfragen können sich dabei auf einzelne Klassen oder Unterklassen beziehen. Weiterhin können die Suchanfragen so definiert werden, dass nicht nur eine Klasse in die Suchanfrage miteinbezogen ist, sondern auch die der Klasse zugeordneten Unterklassen. Die Suchanfragen können zudem derart erweitert werden, dass bestimmte Klassen oder Unterklassen ausgeschlossen werden können. Beispielsweise kann eine Suchanfrage derart definiert sein, dass in dieser eine Klasse und eine Teilmenge der dieser zugeordneten Unterklassen miteinbezogen ist. Weiterhin kann die Suchanfrage derart definiert sein, dass in diese Klassen einer bestimmten Ebene der Klassenstruktur miteinbezogen sind. Insbesondere können Suchanfragen derart definiert sein, dass in diese benachbarte Klassen oder Unterklassen miteinbezogen sind.
  • Weiterhin können die Suchanfragen auch auf Attribute von Klassen gerichtet sein.
  • Schließlich sind auch Synonyme in die einzelnen Suchanfragen einbeziehbar. Besonders vorteilhaft sind dabei Synonyme in Form von Attributen, sogenannten Meta-Attributen, definierbar. Damit werden bestimmten Klassen Synonyme zugeordnet. Durch die Zuordnung von Synonymen auf Klassenebene wird insbesondere erreicht, dass diese Synonyme nicht einzelnen Daten zugeordnet werden müssen. Vielmehr bezieht sich die Definition des jeweiligen Synonyms auf sämtliche Daten, die in der Klasse eingeordnet sind, auf welche das Synonym als Meta-Attribut bezogen ist.
  • Erfindungsgemäß sind die Suchausdrücke, mittels derer Elemente der Klassenstruktur und/oder Daten abfragbar sind, über Regeln definiert, welche in der Suchmaschine ausgewertet werden.
  • Die Regeln sind frei programmierbar und können damit auf einfache Weise je nach Anwendungsfall geändert werden. Durch eine geeignete Definition der Regeln kann beispielsweise vorgegeben werden, ob sich ein Suchausdruck auf eine Klasse allein, auf eine Ebene von Klassen oder auf eine Klasse sowie die Gesamtmenge oder eine Teilmenge der zugeordneten Unterklassen bezieht.
  • Die Regeln sind vorzugsweise in den Regelsprachen F-LOGIK, OWL, TRIPLE oder RULEML abgefasst, wobei in diesem Fall die Klassenstruktur der Ontologie als F-LOGIK- oder OWL-Modell ausgebildet ist.
  • Die Endung wird im nachstehenden anhand der Zeichnungen erläutert. Es zeigen:
  • 1: Schematische Darstellung eines Ausführungsbeispiels des erfindungsgemäßen Datenverarbeitungssystems.
  • 2: Erstes Beispiel einer Klassenstruktur für das Datenverarbeitungssystem gemäß 1.
  • 3: Zweites Beispiel einer Klassenstruktur für das Datenverarbeitungssystem gemäß 1.
  • 1 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Datenverarbeitungssystems 1. Das Datenverarbeitungssystem 1 weist eine Speichereinheit 2 auf, auf welcher ein Datenbestand gespeichert ist. Der Datenbestand besteht insbesondere aus einer Anzahl von Textdokumenten. Die Speichereinheit 2 ist von einem Datenbanksystem, einem Filesystem oder dergleichen gebildet. Prinzipiell können auch mehrere, gegebenenfalls auf unterschiedlichen Rechnersystemen integrierte Datenbanksysteme vorgesehen sein.
  • Der Speichereinheit 2 ist ein Server 3 zugeordnet, über welchen ein Zugriff auf die in der Speichereinheit 2 gespeicherten Daten erfolgt. Diesem Server 3 ist eine Rechnereinheit 4 zugeordnet. Im vorliegenden Fall ist die Rechnereinheit 4 auf dem Server 3 installiert und besteht aus einem Prozessorsystem oder dergleichen.
  • Die Rechnereinheit 4 weist ein erstes Software-Modul 5a auf, mittels dessen ein eine Ontologie bildendes Objektmodell generierbar ist.
  • Weiterhin weist die Rechnereinheit 4 ein Software-Modul Sb auf, welches eine Suchmaschine zur Durchführung von Datenrecherchen in einem Datenbanksystem oder dergleichen bildet.
  • In dem Datenbanksystem ist durch einen Indizierer, beispielsweise einen Microsoft-Index-Server ein Index definiert, welcher angibt, welche Worte in den einzelnen den Datenbestand des Datenbanksystems bildenden Schriftstücken enthalten sind. Weiterhin können mit dem Inidizierer selbsttätig Recherchen durchgeführt werden, bei welchen ermittelt wird, ob bestimmten Worte in Schriftstücken des Datenbestands enthalten sind. Damit können mittels des Indizierers in der Suchmaschine generierte Suchausdrücke selbsttätig abgearbeitet werden. Hierbei wird mittels des Indizierers abgeprüft, in welchen Schriftstücken die Suchbegriffe des jeweiligen Suchausdruckes enthalten sind.
  • Schließlich weist die Rechnereinheit 4 als weitere Software-Module 5c, 5d eine Korrelationseinheit und eine Auswerteeinheit auf.
  • An die Rechnereinheit 4 ist eine Eingabeeinheit 6 angeschlossen. Zudem ist an die Rechnereinheit 4 eine Ausgabeeinheit 7 angeschlossen. Vorzugsweise ist die Rechnereinheit 4 an ein Terminal angeschlossen, über welches als Ein/Ausgabeeinheit Eingabegrößen in die Rechnereinheit 4 eingebbar sind und über welches Ausgabegrößen ausgebbar sind.
  • Mittels der zugeordneten Rechnereinheit 4 wird der Datenbestand in einem eine Ontologie bildenden Objektmodell strukturiert. Dieses Objektmodell weist eine Klassenstruktur bestehend aus Klassen und Unterklassen auf. Ein Beispiel für eine derartige Klassenstruktur ist in 2 dargestellt, welches zur Strukturierung von Textdokumenten eines Unternehmens dient. Die hierarchisch ausgebildete Klassenstruktur weist eine Klasse „Dokument" auf, welcher die Unterklassen „Präsentation", „Angebot", „Marketingdokument", „Vertrag", „Finanzdokument", „Rechnung" und „Entwicklung" untergeordnet sind.
  • Der Klasse „Vertrag" sind die Unterklassen „Mitarbeitervertrag" und „Kooperationsvertrag" zugeordnet. Der Klasse „Entwicklung" sind als Unterklassen „Grundlagenentwicklung" und „Anwendungsentwicklung" untergeordnet. Der Klasse „Anwendungsentwicklung" sind als weitere Unterklassen „Businessentwicklung" und "Oberflächenentwicklung" untergeordnet.
  • Die Strukturierung der in der Speichereinheit 2 abgespeicherten Daten, welche von Textdokumenten unterschiedlicher Ausprägung gebildet sind, erfolgt derart, dass jedes Textdokument, welches das Wort „Dokument" enthält, der Klasse „Dokument" zugeordnet wird. Ebenso wird ein Textdokument, welches das Wort „Vertrag" enthält, der Klasse „Vertrag" zugeordnet. Enthält dieses Textdokument zugleich das Wort „Mitarbeitervertrag", so wird dieses auch der Unterklasse „Mitarbeitervertrag" zugeordnet. Auf diese Weise erfolgt eine Zuordnung der gespeicherten Daten zu sämtlichen Klassen und Unterklassen der Klassenstruktur.
  • Den Klassen der Klassenstruktur können weiterhin Attribute zugeordnet werden, die innerhalb der Klassenstruktur weitervererbt werden. Beispiele für derartige Attribute sind die Titel oder bestimmte Schlagworte, die einem Dokument, d.h. einer Klasse zugeordnet werden können.
  • Insbesondere können durch derartige Attribute auch Synonyme definiert werden. Die auf der Attributebene als sogenannte Meta-Attribute definierten Synonyme beziehen sich dabei auf eine gesamte Klasse und nicht nur auf einzelne, den Klassen zugeordneten Daten.
  • Für die vorliegende Klassenstruktur sind beispielsweise folgende Synonyme definierbar:
    Der Klasse „Dokument" ist als Synonym das Meta-Attribut „Schriftstück" zugeordnet.
  • Der Klasse „Entwicklungsvertrag" ist als Synonym das Meta-Attribut „F + E-Vertrag" zugeordnet.
  • Der Klasse „Anwendungsentwicklung" ist als Synonym das Meta-Attribut „Applikationsentwicklung" zugeordnet.
  • Die auf diese Weise definierte Klassenstruktur ist nicht fest vorgegeben, sondern kann bei Bedarf erweitert und ergänzt oder sogar durch eine neue Klassenstruktur ersetzt werden. Da die Klassenstruktur über ein Software-Modul 5a definiert ist, kann die Klassenstruktur zur Strukturierung der gespeicherten Daten durch geeignete Programmierung auf einfache Weise geändert werden.
  • Zusätzlich zu dem Objektmodell ist in der Speichereinheit 2 eine Liste von Mitarbeitern des Unternehmens abgespeichert.
  • Die Durchführung von Datenrecherchen erfolgt anhand der beschriebenen Klassenstruktur mittels der Suchmaschine. Mittels der Suchmaschine werden Suchausdrücke generiert. Dabei werden zur Bildung der Suchausdrücke frei programmierbare Regeln verwendet, zu deren Auswertung die Suchmaschine eine Inferenzeinheit aufweist.
  • Jeder Suchausdruck wird durch eine vorgegebene Zahl von Regeln beschrieben, welche ein deklaratives System bilden. Dies bedeutet, dass die Regeln in der Inferenzeinheit unabhängig von deren Reihenfolge abarbeitbar sind.
  • Die einzelnen Regeln und damit auch die Suchausdrücke können auf einfache Weise bei Bedarf umprogrammiert und so geändert werden.
  • Mit dem erfindungsgemäßen Datenverarbeitungssystem 1 ist eine weitgehend automatisierte Auswertung der Textdokumente des Datenbestandes möglich. Dabei kann mittels der Korrelationseinheit insbesondere der Grad der Zuordnung von bestimmten Suchbegriffen bestimmt werden.
  • Beispielsweise kann für die Struktur gemäß 2 durch Eingabe der Suchbegriffe „Mitarbeiter" und „Oberflächenentwicklung" ermittelt werden, welche Mitarbeiter des Unternehmens mit dem Thema Oberflächenentwicklung befasst sind.
  • Im einfachsten Fall wird in die Datenrecherche allein die Unterklasse „Oberflächenentwicklung" als Suchbegriff einbezogen. Dann wird mittels der Korrelationseinheit geprüft, welche Mitarbeiter in den Textdokumenten des Datenbestandes im Zusammenhang mit dem Suchbegriff „Oberflächenentwicklung" erwähnt sind.
  • Gemäß einer ersten Ausführungsform erfolgt die in der Korrelationseinheit durchgeführte Korrelationsanalyse gemäß einem geometrisch-statistischen Verfahren. Dabei wird für jedes recherchierte Textdokument abgeprüft, wie groß der Abstand der Namen eines Mitarbeiters zu dem Suchbegriff, im vorliegenden Fall dem Begriff „Oberflächenentwicklung", ist.
  • Anhand dieser Analyse wird in der Korrelationseinheit ein Korrelationsgrad der beiden Suchbegriffe ermittelt. Dabei ist der Korrelationsgrad für den Namen eines Mitarbeiters mit dem Suchbegriff „Oberflächenentwicklung" umso höher, desto geringer der Abstand der Suchbegriffe innerhalb des Textdokumentes ist. In der der Korrelationseinheit zugeordneten Auswerteeinheit erfolgt eine Weiterverarbeitung der Ergebnisse, die in der Korrelationseinheit ermittelt wurden. Dabei wird in der Auswerteeinheit zum einen ausgewertet, wie häufig die Suchbegriffe innerhalb dieses Textdokuments im Zusammenhang erwähnt sind. Zudem ist in der Auswerteeinheit eine Schwellwerteinheit vorgesehen, in welcher der Korrelationsgrad mit einer vorgegebenen Anzahl von Schwellwerten bewertet wird, mittels derer aus dem Korrelationsgrad ein quantisiertes Ausgangssignal gewonnen wird. Besonders vorteilhaft wird der jeweils in der Korrelationseinheit bestimmte Korrelationsgrad mit einem Schwellwert bewertet. Liegt der Wert des Korrelationsgrades oberhalb des Schwellwerts, ist eine Zuordnung zwischen den Suchbegriffen gegeben. Bei unterhalb des Schwellwerts liegenden Korrelationsgraden liegt keine derartige Zuordnung vor. Zur Generierung einer Ausgangsgröße der Datenrecherche, welche angibt, ob sich ein bestimmter Mitarbeiter mit dem Thema Oberflächenentwicklung befasst oder nicht, wird dann in der Auswerteeinheit ermittelt, wie häufig in den Textdokumenten derartige Zuordnungen zwischen den Suchbegriffen aufgefunden wurden. Nur dann, wenn die Häufigkeit der Zuordnungen der Suchbegriffe einen vorgegebenen Grenzwert überschreitet, wird als Ausgangsgröße über die Auswerteeinheit vorgegeben, dass der jeweilige Mitarbeiter des Unternehmens mit dem Thema Oberflächenentwicklung befasst ist.
  • In einer alternativen Ausführungsform erfolgt die Bestimmung des Korrelationsgrades der beiden Suchbegriffe in der Korrelationseinheit mittels einer linguistischen Methode. Hierbei wird in der Korrelationseinheit abgeprüft, ob der jeweils recherchierende Mitarbeiter und der Suchbegriff „Oberflächenentwicklung" innerhalb eines Satzes eines Testdokuments in einem vorgegebenen sprachlichen Kontext erwähnt wird.
  • Diese Prüfung erfolgt mittels in der Korrelationseinheit abgespeicherter Sprachbausteine, welche als Vorgabewerte dienen. Diese Sprachbausteine bilden einen Bezug eines Mitarbeiters zum Suchbegriff „Oberflächenentwicklung".
  • Beispiele für Sprachbausteine sind:
    „hat Kenntnisse über"
    „arbeitet im Bereich"
    „zum Thema".
  • Auch Konjunktionen wie „und", „oder" und dergleichen können als Vorgabewerte abgespeichert werden. Zweckmäßigerweise wird eine möglichst große Zahl derartiger Sprachbausteine, die eine mögliche sprachliche Verknüpfung der Suchbegriffe definieren, in der Korrelationseinheit als Menge von Vorgebewerten abgespeichert.
  • In der Korrelationseinheit und der zugeordneten Auswerteeinheit wird dann abgeprüft, wie häufig derartige sprachliche Zuordnungen innerhalb der Textdokumente aufgefunden werden. Je häufiger derartige Zuordnungen aufgefunden werden, desto höher ist der Korrelationsgrad und auch der Grad der Zuordnung zwischen den Suchbegriffen. Zur Generierung des Ausgangssignals, ob ein bestimmter Mitarbeiter mit dem Thema Oberflächenentwicklung befasst ist, wird analog zur ersten Ausführungsform in der Schwellwerteinheit eine Schwellwertbewertung der Ausgangssignale der Korrelationseinheit vorgenommen.
  • Zur Bestimmung des Korrelationsgrades können die einzelnen Vorgabewerte auch in unterschiedlicher Weise gewichtet werden.
  • Werden beispielsweise in den Textdokumenten die Zuordnungen
    „Mitarbeiter x hat Kenntnisse über Oberflächenentwicklung",
    „Mitarbeiter x und Oberflächenentwicklung"
    gefunden, so beinhaltet die erste Zuordnung einen direkteren Bezug des Mitarbeiters zum Thema „Oberflächenentwicklung" als die zweite Zuordnung, so dass bei Vorliegen der ersten Zuordnung ein höherer Korrelationsgrad als für die zweite Zuordnung erhalten wird.
  • Wird dagegen bei der Datenrecherche überhaupt keine Zuordnung aufgefunden, so nimmt der Korrelationsgrad den Wert Null an.
  • Bei dem genannten Ausführungsbeispiel ist durch die spezifische Vorgabe von Regeln der Suchausdruck für den Suchbegriff „Oberflächenentwicklung" derart definiert, dass allein die Unterklasse „Oberflächenentwicklung" in die Datenrecherche einbezogen ist.
  • Durch Umprogrammieren der Regeln kann der Umfang dieser Datenrecherche auf einfache Weise erweitert werden.
  • Beispielsweise kann die der Klasse „Oberflächenentwicklung" nebengeordnete Unterklasse „Businessentwicklung" in die Datenrecherche mit einbezogen werden. Hierzu wird bei Eingabe des Suchbegriffs „Oberflächenentwicklung" in die Eingabeeinheit 6 mittels der Regeln ein Suchausdruck gebildet, der in Form folgender ODER-Verknüpfung ausgebildet ist:
    „Oberflächenentwicklung" OR „Businessentwicklung"
  • In einer weiteren Variante kann zusätzlich die den Unterklassen „Businessentwicklung" und „Oberflächenentwicklung" übergeordnete Klasse in die Datenrecherche mit einbezogen werden. Durch entsprechende Vorgabe der Regeln wird dann bei Eingabe des Suchbegriffs „Oberflächenentwicklung" als Suchausdruck folgende ODER-Verknüpfung generiert:
    „Oberflächenentwicklung" OR „Businessentwicklung" OR „Anwendungsentwicklung" OR „Applikationsentwicklung".
  • Dabei sind die Regeln derart formuliert, dass für die Klasse „Anwendungsentwicklung" als Meta-Attribut auch das Synonym „Applikationsentwicklung" in die Recherche mit einbezogen ist.
  • Schließlich können die Regeln auch derart formuliert werden, dass bestimmte Klassenebenen der Klassenstruktur inklusive deren Synonyme abfragbar sind. Beispielsweise können die Regeln derart definiert sein, dass bei Eingabe des Suchbegriffs „Oberflächenentwicklung" die Klassenebene, in welcher der Begriff „Oberflächenentwicklung" enthalten ist, sowie die darüber liegende Klassenebene inklusive deren zugeordnete Synonyme komplett abgefragt wird. Der entsprechende Suchausdruck lautet dann:
    „Oberflächenentwicklung" OR „Businessentwicklung" OR „Anwendungsentwicklung" OR „Applikationsentwicklung" OR „Grundlagenentwicklung" OR „Kooperationsvertrag" OR „Entwicklungsvertrag" OR „F + E-Vertrag"
  • 3 zeigt ein Ausführungsbeispiel einer nicht hierarchischen Klassenstruktur. In diesem Fall sind als Klassen „Gebäcknamen", „Gewürze" und „Essensbestandteile" definiert, welchen jeweils eine bestimmte Anzahl von Elementen zugeordnet sind. Diese Klassenstruktur kann Bestandteil eines komplexeren Objektmodells eins.
  • Die Klassenstruktur gemäß 3 wird für eine automatisierte Auswertung von Textdokumenten eines Datenbestandes eingesetzt, wobei die Textdokumente im vorliegenden Fall von einer typischerweise großen Anzahl von in der Speichereinheit 2 abgespeicherten Rezepten gebildet sind.
  • Mittels des erfindungsgemäßen Verfahrens kann anhand dieser Klassenstruktur beispielsweise ermittelt werden, welches Gebäck einen bestimmten Essensbestandteil, zum Beispiel Zitronat, enthält.
  • Durch Eingabe der Suchbegriffe „Gebäcknamen" und „Zitronat" werden sämtliche abgespeicherte Rezepte mittels der erfindungsgemäßen Korrelationsanalyse analog zu dem Ausführungsbeispiel gemäß 2 darauf abgeprüft, ob zwischen einem bestimmten Gebäck, wie zum Beispiel „Hochzeitskuchen" eine Korrelation zu dem Begriff „Zitronat" besteht.
  • Da im vorliegenden Fall Zitronat eine übliche Komponente von Lebkuchen verschiedener Art bildet, wird bei der Korrelationsanalyse der abgespeicherten Rezepte für die Begriffe „Lebkuchen" und „Zitronat" ein hoher Korrelationsgrad erhalten, nicht jedoch für den Begriff „Zitronat" einerseits und die weiteren Elemente der Klasse „Gebäcknamen". Damit wird anhand der in der Korrelationseinheit und der Auswerteeinheit vorgenommenen Korrelationsanalyse im vorliegenden Fall als Ausgangsgröße die Aussage generiert, dass Zitronat nur in Lebkuchen als Essensbestandteil enthalten ist.
  • Weiterhin kann für die Klassenstruktur gemäß 3 eine Datenrecherche durchgeführt werden, mittels derer durch eine automatisierte Auswertung der abgespeicherten Rezepte feststellbar ist, welche Gewürze und/oder Essensbestandteile ein bestimmtes Gebäck, zum Beispiel ein Hochzeitskuchen, enthält. In diesem Fall gehen der Begriff „Hochzeitskuchen" und die Elemente der Klassen „Gewürze" und „Essensbestandteile" als Eingangsgrößen in die durchzuführende Korrelationsanalyse ein.
  • (1)
    Datenverarbeitungssystem
    (2)
    Speichereinheit
    (3)
    Server
    (4)
    Rechnereinheit
    (5a, 5b, 5c, 5d)
    Software-Modul
    (6)
    Eingabeeinheit
    (7)
    Ausgabeeinheit

Claims (15)

  1. Datenverarbeitungssystem (1) mit wenigstens einer Speichereinheit (2) zur Speicherung von Daten, mit wenigstens einer Rechnereinheit (4) zur Generierung eines Objektmodells zur Strukturierung von Daten, mit wenigstens einer Suchmaschine, in welcher für vorgebbare Suchbegriffe mittels Regeln Suchausdrücke generierbar sind, und mit einer der Suchmaschine zugeordneten Korrelationseinheit, mittels derer ein Korrelationsgrad für die Suchbegriffe bestimmbar ist.
  2. Datenverarbeitungssystem nach Anspruch 1, dadurch gekennzeichnet, dass der Korrelationseinheit eine Auswerteeinheit mit einer Schwellwerteinheit zugeordnet ist, in welcher ein Korrelationsgrad mittels wenigstens eines Schwellwerts zur Generierung eines quantisierten Ausgangssignals bewertet wird.
  3. Datenverarbeitungssystem nach Anspruch 2, dadurch gekennzeichnet, dass mittels der Schwellwerteinheit ein binäres Ausgangssignal generiert wird, dessen Schaltzustände angeben, ob zwischen wenigstens zwei Suchbegriffen eine Zuordnung besteht oder nicht.
  4. Datenverarbeitungssystem nach Anspruch 3, dadurch gekennzeichnet, dass in der Auswerteeinheit die Häufigkeit von ermittelten Zuordnungen zwischen wenigstens zwei Suchbegriffen ermittelt wird.
  5. Datenverarbeitungssystem nach einem der Ansprüche 1–4, dadurch gekennzeichnet, dass diese wenigstens eine Eingabeeinheit (6) zur Eingabe von Suchausdrücken aufweist.
  6. Datenverarbeitungssystem nach einem der Ansprüche 1–5, dadurch gekennzeichnet, dass dieses wenigstens eine Ausgabeeinheit (7) aufweist, über welche die Zuordnungen von Suchbegriffen ausgebbar sind.
  7. Verfahren zur Durchführung von Datenrecherchen in einem Datenbestand eines Datenverarbeitungssystems (1) gemäß einem der Ansprüche 1 6, umfassend folgende Verfahrensschritte: – Strukturierung von Daten des Datenbestandes mittels eines Objektmodells, bestehend aus einer Klassenstruktur, – Durchführen von Datenrecherchen im Datenbestand durch Generierung von Suchausdrücken mittels Regeln für vorgebbare Suchbegriffe, – und Bestimmen von Korrelationsgraden für vorgebbare Suchbegriffe als Maß für deren Grad der gegenseitigen Zuordnung.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass mit diesem eine selbsttätige Auswertung von Textdokumenten, welche Bestandteil des Datenbestandes sind, erfolgt.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass zur Bestimmung des Korrelationsgrades wenigstens zweier Suchbegriffe deren Abstände innerhalb eines Textdokumentes ausgewertet werden, wobei der Korrelationsgrad umso höher ist, desto kleiner die Abstände der jeweiligen Suchbegriffe innerhalb des Textdokuments sind.
  10. Verfahren nach einem der Ansprüche 8 oder 9, dadurch gekennzeichnet, dass zur Bestimmung des Korrelationsgrades wenigstens zweier Suchbegriffe deren sprachlicher Kontext innerhalb eines Textdokuments ausgewertet wird.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass zur Bestimmung des Korrelationsgrades wenigstens zweier Suchbegriffe ermittelt wird, ob zwischen diesen innerhalb eines Satzes eines Textdokuments ein sprachlicher Kontext in Form vorgegebener Sprachbausteine besteht.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass in dem Datenverarbeitungssystem (1) vorgegebene Sprachbausteine als Vorgabewerte abgespeichert sind, und dass ein sprachlicher Kontext zwischen zwei Suchbegriffen vorliegt, wenn innerhalb eines Satzes eines Textdokuments die Suchbegriffe und wenigstens einer der Vorgabewerte enthalten sind.
  13. Verfahren nach einem der Ansprüche 7–12, dadurch gekennzeichnet, dass die Klassenstruktur des Objektmodells veränderbar ist.
  14. Verfahren nach einem der Ansprüche 7–13, dadurch gekennzeichnet, dass die Regeln veränderbar sind.
  15. Verfahren nach einem der Ansprüche 7–14, dadurch gekennzeichnet, dass in einen Suchausdruck für einen Suchbegriff Synonyme und/oder dem Suchbegriff zugeordnete Klassen der Klassenstruktur mit einbezogen werden.
DE2002129598 2002-07-02 2002-07-02 Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen Ceased DE10229598A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2002129598 DE10229598A1 (de) 2002-07-02 2002-07-02 Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002129598 DE10229598A1 (de) 2002-07-02 2002-07-02 Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen

Publications (1)

Publication Number Publication Date
DE10229598A1 true DE10229598A1 (de) 2004-01-22

Family

ID=29761565

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2002129598 Ceased DE10229598A1 (de) 2002-07-02 2002-07-02 Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen

Country Status (1)

Country Link
DE (1) DE10229598A1 (de)

Similar Documents

Publication Publication Date Title
DE69424586T2 (de) Verfahren und System zum formulieren interaktiver Abfragen
DE69509118T2 (de) Implementierungsunabhängige erweiterbare abfragearchitektur für systeme zur informationswiederauffindung
DE69813652T2 (de) System und Verfahren zum hierarchischen Zusammenstellen und Einordnen eines Satzes von Objekten in einem Abfragekontext
DE19960043B4 (de) Verfahren zum Navigieren in einer Baumstruktur
DE3685671T2 (de) Aufzeichnungs- und wiederauffindungsverfahren fuer chemische strukturdaten.
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE102009040570A1 (de) Verfahren und System zum Erzeugen eines dynamischen Hilfe-Dokuments
WO2009030288A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE69719641T2 (de) Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren
DE60300984T2 (de) Methode und Computersystem für die Optimierung eines Boolschen Ausdrucks für Anfragebearbeitung
DE112021006602T5 (de) Verfeinern von abfrage-erzeugungsmustern
DE19914326A1 (de) Verfahren zur Nutzung von fraktalen semantischen Netzen für alle Arten von Datenbank-Anwendungen
DE10220094B4 (de) Datenverarbeitungssystem
EP1064606B1 (de) Datenverarbeitungssystem und verfahren zum automatischen erstellen von inhaltsangaben von textdokumenten
WO2009030248A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP1324218A1 (de) Kategorisierungsystem für Datenobjekte und Verfahren zum Prüfen der Konsistenz von Zuordnungen von Datenobjekten zu Kategorien
DE10229598A1 (de) Datenverarbeitungssystem und Verfahren zur Durchführung von Datenrecherchen
DE112020000554T5 (de) Verfahren zum zugreifen auf datensätze eines stammdatenverwaltungssystems
DE69122324T2 (de) Verfahren und gerät zur graphischen befragung einer datenbank
EP1784748B1 (de) Abfrageeinrichtung für elektronische archivsysteme sowie elektronische archivsysteme
EP0973091B1 (de) Verfahren zum Erzeugen eines regel- und anpassbaren Netzwerkes von Modellen von Verhaltensmustern
DE102014201540A1 (de) Verfahren und Vorrichtung zur Analyse von Texten
DE10318333A1 (de) Datenverarbeitungssystem
DE102009037848A1 (de) Verfahren zum rechnergestützten Verarbeiten von digitalen semantisch annotierten Informationen
DE102021202805A1 (de) Arbeitsablaufkombination und variantenerzeugung auf anfrage

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection