DE112007000051T5

DE112007000051T5 - Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung

Info

Publication number: DE112007000051T5
Application number: DE112007000051T
Authority: DE
Inventors: Xiaofan Wen; Kaihao Zhao
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-05-22
Filing date: 2007-05-22
Publication date: 2008-08-28
Also published as: KR20070112729A; WO2007143898A1; KR100911910B1; SMP200800031B; CN1845105A; JP2007317189A; SMAP200800031A; US20100030761A1

Abstract

Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung mit folgenden Schritten:
A) Eingabe der Informationen über die originalen Dateien und Herstellung eines Wörterbuches, welches die Position von Schlüsselwort und Schlüsselwort in den Dateien zeigt;
B) Aufbau eines dreiteiligen Beziehungsmodells in Form einer dreiteiligen Gruppe Ka, Kr und Kb, wobei Ka für ein Schlüsselwort a, Kb für ein Schlüsselwort b und Kr für die Beziehung zwischen dem Schlüsselwort a und dem Schlüsselwort b steht, wobei mit dieser dreiteiligen Gruppe drei Arten von Zusammenhängen und Beziehungen zwischen den Schlüsselwörtern dargestellt und ermöglicht werden, wobei Kr_r die Beziehungen zwischen Beziehungsschlüsselwörtern repräsentiert und Kr' eine Beziehung vertritt, die durch Kr in Abhängigkeit von Kr_r abgeleitet wird, so dass zwischen dem Schlüsselwort Ka' und dem Schlüsselwort Kb' eine neue Beziehung Kr' entsteht;
C) Eingabe von Kr, Kr_r und Kr' im dreiteiligen Beziehungsmodell in eine Abfragedatenbank;
D) Automatische Einleitung neuer Beziehungen zwischen den...

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Informationsgewinnung und -verarbeitung, insbesondere ein Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung.
Das effektive Abfragen und Verarbeiten von Dateninformationen und Dokumenten stellt den Kernpunkt im Bereich der Datenbankanwendung dar und kommt bei der Suche nach verschiedenen elektronischen Daten, Literaturen, kommerziellen Datenbankressourcen und Internetinhalten zum Einsatz.
Die Abfrageverfahren für Daten und Informationen in diesem Bereich beruhen derzeit allgemein auf den statistischen Methoden für Schlüsselwörter und es werden dabei Boolesche Ausdrücke der Schlüsselwörter als Abfrageanweisung verwendet. Bei der Dateidatenbank werden mit einem Wörterbuch, welches die Position von Schlüsselwort und Schlüsselwort in den Dateien zeigt, durch einen Vergleich des Schlüsselwortes der Abfrageanweisung mit dem in dem Wörterbuch der Dateidatenbank die relevanten Dateien herausgefunden. Außerdem machen manche Weiterbildungen von Fuzzy-Logic-Modellen, Vektorraummodellen, Wahrscheinlichkeitsmodell etc. Gebrauch.
Beider Wissensverarbeitung werden herkömmlichen Verfahren gemäß die Attribute eines ganzen Dokuments in der Regel durch Schlagwortindizierung, durch Angabe einzelner Schlüsselwörter oder mittels einer Kurzfassung eines Dokuments gekennzeichnet. Dabei werden diese Attributkennzeichen als Suchbegriffe beim Abfragevorgang verwendet. Auf diese Weise können jedoch nicht die sämtlichen Wissensinformationen im ganzen Dokument gedeckt werden. Wenn z. B. eine tatsächliche Beziehung vorliegt, aber das entsprechende Schlüsselwort dies nicht zeigt, so kann es nicht zum gewünschten Suchergebnis kommen. Als endgültiges Suchergebnis wird auf das Fehlen des betreffenden Dokuments hingewiesen.
Um die oben genannten Probleme zu beseitigen, stellt die vorliegende Erfindung ein Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung bereit, mit dem auch komplizierte Datenabfragen wie "implizite Verweisung" erfüllt werden können.
Die Aufgabe wird gelöst durch ein Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung mit folgenden Schritten:

a) Eingabe der Informationen über die originalen Dateien und Herstellung eines Wörterbuches, welches die Position von Schlüsselwort und Schlüsselwort in den Dateien zeigt;
b) Aufbau eines dreiteiligen Beziehungsmodells in Form einer dreiteiligen Gruppe Ka, Kr und Kb, wobei Ka für ein Schlüsselwort a, Kb für ein Schlüsselwort b und Kr für die Beziehung zwischen dem Schlüsselwort a und dem Schlüsselwort b steht. Mit dieser dreiteiligen Gruppe werden drei Arten von Zusammenhängen und Beziehungen zwischen den Schlüsselwörtern dargestellt und ermöglicht. Ferner repräsentiert Kr_r die Beziehungen zwischen Beziehungsschlüsselwörtern, wie z. B. inverse Beziehungen, sekundäre Übertragungen, gleiche Subjekte und Symmetrien. Kr' vertritt eine Beziehung, die durch Kr in Abhängigkeit von Kr_r abgeleitet wird. Dadurch entsteht zwischen dem Schlüsselwort Ka' und dem Schlüsselwort Kb eine neue Beziehung Kr';
c) Eingabe von Kr, Kr_r und Kr' im genannten dreiteiligen Beziehungsmodell in eine Abfragedatenbank;
d) Automatische Einleitung neuer Beziehungen zwischen den Schlüsselwörtern, also die neue Beziehung Kr' zwischen dem Schlüsselwort Ka' und dem Schlüsselwort Kb', in Abhängigkeit von den Schlüsselwörtern im Schritt 1) und den Beziehungen im Schritt 3), sowie Eintragung der Schlüsselwörter und Beziehungen ins Wörterbuch.

Zu den oben genannten dreiteiligen Beziehungen gehören Angehörigkeit zwischen Mitgliedern, Beziehungen zu gleichwertigen Beinamen und Beziehung durch Hintergrundreferenz (background reference).
Durch wiederholte, kombinierte Verwendung dieses auf ein dreiteiliges Beziehungsmodell basierten Verfahrens können mehr logische Ergebnisse erzeugt werden.
Beim Abfragevorgang können nach Eingabe eines Suchbegriffs nicht nur Inhalte herausgefunden werden, die man auch bei herkömmlichen Verfahren durch Verwendung eines Wörterbuches für Schlüsselwörter bekommen kann, sondern auch die jenigen Inhalte, welche zwar nicht als verfügbare Datensätze in den originalen Dateien vorliegen, dennoch tatsächlich existieren, nämlich eine sogenannte "implizite Verweisung", können aufgrund der oben beschriebenen dreiteiligen Beziehungen herausgefunden werden.
Gegenüber den bisherigen Datenabfragesystemen zeichnet sich das erfindungsgemäße Verfahren aus durch:

1. Erhebliche Reduzierung der Grunddatenmenge: Die aus dem Stand der Technik bekannten Datenabfragesysteme müssen über komplette Basisdaten verfügen, um verschiedene Abfragen zu erfüllen. Dabei müssen all die abgeleiteten Ergebnisse als Basisdaten ins System eingegeben werden. Demgegenüber kann beim erfindungsgemäßen Verfahren eine kleinere Menge an Grunddaten vorhanden sein, mit denen trotzdem viele Ergebnisdaten zur Abfrage abgeleitet werden können.
2. Erhebliche Zunahme von abfragbaren Daten: Die vom Benutzer abfragbaren Daten hängen nicht mehr nur von der Grunddatenmenge, sondern auch von der Anzahl der dreiteiligen Beziehungsgruppen ab. Da sich eine dreiteilige Beziehungsgruppe universell einsetzen lässt, kann es zu einer Verdopplung und sogar zu einer Vermehrung in geometrischen Reihen der abfragbaren Datenmenge führen, wenn es eine mehr dreiteilige Beziehungsgruppe gibt.
3. Höhere Konsequenz in der Datenverknüpfung: Unter den Ergebnissen, die in großen Mengen bei logischen Ableitungen durch das System entstehen, liegt eine strenge Logik vor. Dagegen werden bei den bisherigen Datenabfragesystemen die Grunddaten separat in die Datenbank aufgenommen, so dass eine Datenkontinuität nicht sichergestellt werden kann.
4. Erweiterbarkeit der Beziehungen: Jede logische dreiteilige Beziehungsgruppe lässt sich im System definieren. So können einerseits Beziehungen, die aus Lebenserfahrungen oder aus gegenwärtigen Entwicklungen im technischen Bereich resultieren, durch dieses System realisiert werden. Andererseits treten mit der kontinuierlichen Weiterentwicklung der Gesellschaft, Wissenschaft und Technik immer wieder neue Beziehungen auf, die ebenfalls im System implementiert werden können. Zudem werden wegen den neu definierten dreiteiligen Beziehungsgruppen die historischen Daten entsprechend organisiert, um eine mögliche Abfrage gewährleisten zu können.

Im folgenden wird die vorliegende Erfindung anhand eines Ausführungsbeispiels unter Bezug auf die Zeichnungen näher erläutert. Es zeigen:
1 eine schematische Darstellung eines erfindungsgemäßen dreiteiligen Beziehungsmodells,
2 die Beziehungen zwischen den Schlüsselwörtern für den Personenindex in einem Ausführungsbeispiel der vorliegenden Erfindung,
3 die Beziehungen zwischen den Beziehungsschlüsselwörtern in einem Ausführungsbeispiel der vorliegenden Erfindung,
4 die Ableitungspfade von "inversen Beziehungen" in einem Ausführungsbeispiel der vorliegenden Erfindung,
5 die Ableitungspfade von "sekundären Übertragungen" in einem Ausführungsbeispiel der vorliegenden Erfindung,
6 die Ableitungspfade von "gleichen Subjekten" in einem Ausführungsbeispiel der vorliegenden Erfindung, und
7 die Ableitungspfade von "Symmetrien" in einem Ausführungsbeispiel der vorliegenden Erfindung.
Um einen hochflexiblen intelligenten Indexmechanismus auszugestalten, wird erfindungsgemäß ein in sich geschlossenes, selbstorganisiertes dreiteiliges Beziehungsmodell hergestellt. Da jede gängige Sprache seine grundlegende grammatische Struktur (Subjekt, Prädikat, Objekt) aufweist, simuliert die vorliegende Erfindung solche dreiteiligen Beziehungen und realisiert somit eine Datendarstellung, -speicherung und -abfrage, die auf ein dreiteiliges Beziehungsmodell basiert.
Wie in 1 gezeigt, nimmt das dreiteilige Beziehungsmodell der Erfindung die Form einer dreiteiligen Gruppe Ka, Kr und Kb an, wobei Ka für ein Schlüsselwort a, Kb für ein Schlüsselwort b und Kr für die Beziehung zwischen dem Schlüsselwort a und dem Schlüsselwort b steht. Mit dieser dreiteiligen Gruppe werden drei Arten von Zusammenhängen und Beziehungen zwischen den Schlüsselwörtern dargestellt und ermöglicht, und zwar Angehörigkeit zwischen Mitgliedern, Beziehungen zu gleichwertigen Beinamen und Beziehung durch Hintergrundreferenz (background reference).
Jeder Beziehungstyp kann in weitere Beziehungen unterteilt werden, zwischen denen die drei Typen von Zusammenhängen auch realisiert werden können. Bei den mathematischen Kalkulationen, die auf Basis eines derartigen dreiteiligen Beziehungsmodells vorgenommen werden, kann eine logische Bedeutungen enthaltende Datenabfrage durchgeführt werden, die sich von den Datenabfrageverfahren durch einfache Kombinationen von Schlüsselwörtern unterscheidet.
Weiterhin repräsentiert Kr_r die Beziehungen zwischen Beziehungsschlüsselwörtern, wie z. B. inverse Beziehungen, sekundäre Übertragungen, gleiche Subjekte und Symmetrien. Kr' vertritt eine Beziehung, die durch Kr in Abhängigkeit von Kr_r abgeleitet wird. Dadurch entsteht zwischen dem Schlüsselwort Ka' und dem Schlüsselwort Kb' eine neue Beziehung Kr'.
2 zeigt ein Beispiel der Beziehungen zwischen den Schlüsselwörtern für den Personenindex: Die Personenschlüsselwörter im System enthalten drei dreiteilige Gruppen wie folgend: (Zhang Laosan, Sohn, zhangsan); (Zhangsan, Sohn, Zhangxiaosan); (Zhangsan, Sohn, Zhang xiaosi).
Gleichzeitig sind, wie in 3 gezeigt, im System für die Beziehungsschlüsselwörter die folgenden dreiteiligen Gruppen definiert: (Sohn, inverse Beziehung, Vater); (Sohn, sekundäre Übertragung, Enkelsohn); (Sohn, gleiches Subjekt, Brüder); (Brüder, Symmetrie, Brüder).
Damit kann das System ohne weitere zusätzliche Informationen automatisch zum nachstehenden Ergebnis kommen: Gemäß 4 können nach der "inversen Beziehung" die folgenden dreiteiligen Gruppen abgeleitet werden: (Zhangsan, Vater, Zhang Laosan) (Zhang Xiaosan, Vater, Zhangsan) (Zhang Xiaosi, Vater, Zhangsan).
Gemäß 5 können nach der "sekundären Übertragung" die nachstehenden dreiteiligen Gruppen abgeleitet werden: (Zhang Laosan, Enkelsohn, Zhang xiaosan) (Zhang Laosan, Enkelsohn, Zhang xiaosi).
Gemäß 6 und 7 kann nach dem "gleichen Subjekt" die dreiteilige Gruppe (Zhang Xiaosan, Brüder, Zhang Xiaosi) und damit nach der "Symmetrie" die dreiteilige Gruppe (Zhang xiaosi, Brüder, Zhang xiaosan) abgeleitet werden.
Es sei darauf hingewiesen, dass die Ableitungsfolge je nach den Umständen unterschiedlich sein kann.
Das oben stehende Ergebnis kommt nur bei einer einmaligen Verwendung von dreiteiligen Gruppen aus Beziehungsschlüsselwörtern zustande. Bei wiederholten kombinierten Verwendungen kann man jedoch mehr logische Ergebnisse erhalten.
Bei der vorliegenden Erfindung werden Indizierungsverfahren verwendet, die ähnlich wie ein dreiteiliges Modell von Schlüsselwörtern arbeiten. Die Indizierungen werden als dreiteilige Gruppe wie (C, R, K) und (Ca, R, Cb) dargestellt und realisiert, wobei C den Inhalt einer Datei bedeutet, K ein Schlüsselwort, R die Beziehung zwischen der Datei und dem Schlüsselwort, Ca den Inhalt einer Datei a, Cb den Inhalt einer Datei b und R die Beziehung zwischen der Datei a und der Datei b. Bei diesem Verfahren werden die Lage, Länge und Abhängigkeit eines Schlüsselworts in einer Datei sowie Zusammenhänge über wechselseitige Zitierungen zwischen Dateien aufgezeichnet. Durch eine derartige Indizierung können einerseits die Dateien in einer strukturierter Form ausgegeben werden, um somit den Benutzerbedarf an zusammenhängenden Informationen zu decken. Andererseits können auch in einem originalen Modus der Wissensquelle die Dateien dargestellt werden.
Zudem wird beim oben genannten Indizierungsverfahren mittels der dreiteiligen Gruppe (C, R, K) die "Verweisungsbeziehung" innerhalb einer Datei ermöglicht. Beispielsweise für ein in einer Datei vorkommene Pronomen "Er" kann das System seinem Benutzer dadurch eine auf das gewünschte Objekt abgezielte Datenabfrage erlauben, dass in der dreiteiligen Gruppe das tatsächlich gewünschte Objekt bestimmt wird, ohne dass dabei auf eine wörtliche Gleichheit oder Ähnlichkeit eingeschränkt ist.
Mit den eigentümlichen Ausführungsbeispielen der vorliegenden Erfindung wird diese bereits vom Inhalt her näher erläutert. Jede nahe liegende Modifizierung, die im Rahmen der erfindungsgemäßen Grundsätze durch durchschnittliche Fachleute in diesem Bereich vorgenommen wird, geht nicht über den Schutzumfang der der vorliegenden Anmeldung beigefügten Ansprüche hinaus.
Zusammenfassung
Die vorliegende Erfindung bezieht sich auf ein Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung mit folgenden Schritten: 1) Eingabe der Informationen über die originalen Dateien und Herstellung eines Wörterbuches, welches die Position von 2 Schlüsselwörtern in den Dateien zeigt; 2) Aufbau eines dreiteiligen Beziehungsmodells; 3) Eingabe der Beziehungen im dreiteiligen Beziehungsmodell in eine Abfragedatenbank; 4) Automatische Einleitung neuer Beziehungen zwischen den Schlüsselwörtern in Abhängigkeit von den Schlüsselwörtern und den Beziehungen sowie Eintragung der Schlüsselwörter und Beziehungen ins Wörterbuch. Beim Abfragevorgang können nach Eingabe eines Suchbegriffs nicht nur Inhalte herausgefunden werden, die man auch bei herkömmlichen Verfahren durch Verwendung eines Wörterbuches für Schlüsselwörter bekommen kann, sondern auch die diejenigen Inhalte, welche zwar nicht als verfügbare Datensätze in den originalen Dateien vorliegen, dennoch tatsächlich existieren, nämlich eine sogenannte "implizite Verweisung", können aufgrund der oben beschriebenen dreiteiligen Beziehungen herausgefunden werden.

Claims

Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung mit folgenden Schritten: A) Eingabe der Informationen über die originalen Dateien und Herstellung eines Wörterbuches, welches die Position von Schlüsselwort und Schlüsselwort in den Dateien zeigt; B) Aufbau eines dreiteiligen Beziehungsmodells in Form einer dreiteiligen Gruppe Ka, Kr und Kb, wobei Ka für ein Schlüsselwort a, Kb für ein Schlüsselwort b und Kr für die Beziehung zwischen dem Schlüsselwort a und dem Schlüsselwort b steht, wobei mit dieser dreiteiligen Gruppe drei Arten von Zusammenhängen und Beziehungen zwischen den Schlüsselwörtern dargestellt und ermöglicht werden, wobei Kr_r die Beziehungen zwischen Beziehungsschlüsselwörtern repräsentiert und Kr' eine Beziehung vertritt, die durch Kr in Abhängigkeit von Kr_r abgeleitet wird, so dass zwischen dem Schlüsselwort Ka' und dem Schlüsselwort Kb' eine neue Beziehung Kr' entsteht; C) Eingabe von Kr, Kr_r und Kr' im dreiteiligen Beziehungsmodell in eine Abfragedatenbank; D) Automatische Einleitung neuer Beziehungen zwischen den Schlüsselwörtern, also die neue Beziehung Kr' zwischen dem Schlüsselwort Ka' und dem Schlüsselwort Kb', in Abhängigkeit von den Schlüsselwörtern im Schritt 1) und den Beziehungen im Schritt 3), sowie Eintragung der Schlüsselwörter und Beziehungen ins Wörterbuch.
Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung nach Anspruch 1, dadurch gekennzeichnet, dass zu den dreiteiligen Beziehungen Angehörigkeit zwischen Mitgliedern, Beziehungen zu gleichwertigen Beinamen und Beziehung durch Hintergrundreferenz (background reference) gehören.
Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das auf ein dreiteiliges Beziehungsmodell basierte Verfahren wiederholt in Kombination verwendet wird.
Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass ein Indizierungsverfahren eingesetzt wird, bei dem die Indizierungen als dreiteilige Gruppe wie (C, R, K) und (Ca, R, Cb) dargestellt und realisiert werden, wobei C den Inhalt einer Datei bedeutet, K ein Schlüsselwort, R die Beziehung zwischen der Datei und dem Schlüsselwort, Ca den Inhalt einer Datei a, Cb den Inhalt einer Datei b und R die Beziehung zwischen der Datei a und der Datei b, dass bei diesem Indizierungsverfahren die Lage, Länge und Abhängigkeit eines Schlüsselworts in einer Datei sowie Zusammenhänge über wechselseitige Zitierungen zwischen Dateien aufgezeichnet werden.