-
Verfahren zum Verarbeiten und Suchen von Eigenschaftssätzen Die Erfindung
bezieht sich auf ein Verfahren zum Verarbeiten und Suchen von Eigenschaftssätzen,
die aus einzelnen sie kennzeichnenden Daten bestehen, wobei die Anzahl der möglichen
Daten in nicht verschlüsselbare Daten (variable Daten) und verschlüsselbare Daten
(fixe Daten) aufgeteilt und mit Kennziffern versehen ist.
-
Unter einem Eigenschaftssatz werden die einen Gegenstand oder eine
Person kennzeichnenden Daten verstanden. Die-Gegenstände können z.B. Patentanmeldungen,
die Personen z.B. Arbeitnehmer sein, deren Daten in einem dem Gegenstand oder der
Person zugeordneten Eigenschaftssatz erfaßt werden. Diese Eigenschaftssätze können
in Speichern einer Eatenverarbeitungsanlage abgespeichert werden. Auf diese breise
wird eine Kartei geschaffen, in der die eine Person oder einen Gegenstand kennzeichnenden
Daten enthalten sind.
-
Ein besonderes Problem ist das schnelle Suchen eines Gegenstandes
oder einer Person, die bestimmte vorgegebene Daten erfüllen sollen. Bekannte Verfahren
prüfen zur Wiederauffindung eines benötigten Gegenstandes oder Person auf Deckungsgleichheit,
d.h. sie vergleichen die vorgegebenen Daten mit-den gespeicherten Daten der Eigenschaftssätze
und wenn Koinzidenz gegeben ist, wird der entsprechende Eigenschaftssatz ausgewählt.
Diese Verfahren benötigen für einen Suchvorgang eine verhältnismäßig lange Zeit.
Aufgabe der Erfindung ist es, ein Verfahren anzugeben, mit dem das Suchen nach einem
Gegenstand oder einer Person, die
gegebene Daten erfüllen, schnell
erfolgt. Diese Aufgabe wird dadurch gelöst, daß die variablen Daten zusammen mit
ihren Kennziffern (variable Merkmale) und die Kennziffern der fixen Daten (fixe
Merkmale) für jeden Eigenschaftssatz in einem Speicher abgespeichert werden, daß
eine Matrix (Merkmalsebene), bei der die Zeilen den fixen Merkmalen und die Spalten
den Eigenschaftssätzen zugeordnet sind, derart aufgebaut wird, daß an die jedem
Eigenschaftssatz und jedem fixen Merkmal zugeordneten Stellen der Merkmalsebene
eine.
-
"1" vermerkt wird, wenn das fixe Merkmal in dem Eigenschaftssatz entlblten!iet,.sonst
eine "0", daß zum Suchen von Eigenschaftssätzen mit vorgegebenen fixen Merkmalen
die den vorgegebenen fixen Merkmalen zugeordneten Zeilen der Merkmalsebene sbaltenweise
addiert werden (Summenzeile) und wenn die Spaltensumme einen bestimmten vorgegebenen
Wert übersteigt, die diesen Spalten zugeordneten Eigenschaftssätze ausgewählt werden,
und daß zum Suchen von Eigenschaftssätzen mit vorgegebenen veriablen Merkmalen die
vorgegebenen variablen Merkmale mit denjenigen variablen Merkmalen der Eigenschaftssätze
zeichenweise verglichen werden, die die gleiche Kenn-. ziffer haben, und bei Gleichheit
der entsprechende Eigenschaftssatz ausgewählt wird.
-
Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.
-
Die einer Person oder einem Gegenstand zugeordneten Daten werden in
variable und fixe Daten eingeteilt. Variable Daten sind Begriffe, wie z.B. Namen,
Geburtstag, Ausweisnummer, also alle die Daten, die nicht durch einen Schlüsselbegriff
ersetzt werden können.
-
Fixe Daten dagegen sind alle Begriffe, die sich normicren und, verschlüsseln
lassen, wie z.ß. eine Personen- oder Fahrzeugbeschreibung. Diese Begriffe können
auf jede der gespeä.-cherten
Personen oder Gegenstände in gleicher
Form zutreffen.
-
Zunächst werden für eine aufzubauende Kartei die fixen und variablen
Daten festgelegt, die in die Kartei für jeden Gegenstand oder Person aufgenommen
werden sollen. Dazu wird diesen Daten je eine Kennziffer zugeordnet. Wenn also n
verschiedene Daten in die Kartei aufgenommen werden können, dann sind n,-Kennziffern
notwendig. Die zugelassenen fixen Daten werden zusammen mit ihren Kennziffern in
Verzeichnissen abgespeichert.
-
Bei den variablen Daten müssen bei der Einspeicherung der Eigenschaftssätze
Kennziffern durch den Text, der zu diesen Daten gehört, ergänzt werden. Bei den
fixen Daten ist die Kennziffer der Schlüssel der fixen Daten. Bei ihnen genügt es,
wenn bei der Einspeicherung der Eigenschaftssätze nur die Kennziffern angegeben
werden.
-
Aus dem Verzeichnis kann die Bedeutuilg der Kennziffern der fixen
Daten entnommen werden. In der Datenverarbeitungsanlage kann die Kennziffer gleichzeitig
die Adresse sein, unter der die Bedeutung abgespeichert ist. Im folgenden soll bei
den variablen Daten die Kennziffer zusammen mit dem zugehörigen Text als variables
Merkmal; die Kennziffer der fixen Daten als fixes Merkmal bezeichnet werden.
-
Alle für die Kartei bestimmten Eigenschaftssätze werden nun entsprechend
dem Merkmalsverzeichnis verschlüsselt und für eine Eingabe in die Datenverarbeitungsanlage
auf Lochstreifen oder Lochkarten abgelocht. Entsprechend den obigen Ausführungen
setzen sich die Angaben eines Falles dann immer aus variablen und fixen Merkmalen
zusammen, die in aufsteigender Nummern- (Kennziffern-) Folge hintereinander abgelocht
werden Sie werden in der DV-Anlage mit den zugehörigen Kenn7,ij:-fern
in
aufsteigender Reihenfolge abgespeichert. Die Anlage ist dann in der Zage, aufgrund
der eingegebenen Kennziffern in diesem Verzeichnis den dazugehörigen Text zu ermitteln
und auszugeben.
-
Die ganze Kartei kann z.B: auf einen Plattenspeicher geschrieben werden.
-
Eigenschaftssätze sind nach Nummern mit variablen und festen Merkmalen
abgespeichert,ao B.
Nr. Variable Merkmale Fixe Merkma1.e |
001 001 Meier 002 Franz 030, 031, 080 |
003 geb. 5.7.30 150, 180, 185 |
004 in Würzburg 360, 380 .... |
---------------------------------------- |
002 ................... ............. |
n ...... . . . . . o . . ..... . . . . o 0 o e . . . . o |
Dabei ist n die max. Anzahl der Eigen- |
schaftssätze |
Das Verzeichnis über die fixen Merkmale kann folgendermaßen ausgeführt sein:
Kennziffer/ Text |
Adresse |
020 Gestalt |
021 Ste.1f |
022 Gebückt |
023 Gerade |
024 Bucklig |
m . |
Um cie Kartei ständig auf dem neuesten Stand zu ha7.ten, ist ein ;lnderung sdienst
notwendig.
Um die Anzahl der Eigenschaftssätze zu en-jci-tern, braucht
man nur den neuen Eigenschaftssatz an n anfügen und reit der Nummer n + 1 zu versehen.
Um einen Eigenschaftssatz zu streichen, wird lediglich die Eigenschaftssatznummer
aufgesucht und die dahinterstehenden variablen und fixen Merkmale gelöscht. Um eine
Berichtigung innerhalb eine; Eigenschaftssatzes vorzunehmen, wird zunC-jchst wieder
die Nummer aufgesucht. Innerhalb des Eigenschaftssatzes können die einzelnen Merkmale
wiederum mit ihren Kennziffern angesprochen werden, um entweder deren Inhalt (bei
variablen Merkmalen) oder die Adresse selbst ( bei festen Herkmalen) entsprechend
zu verändern.
-
Auch die festen Merkmale des Verzeichnisses können nachträglich erweitert
- indem man das neue feste Merkmal an die Adresse m + 1 setzt - oder aufgrund der
bekannten alten Adresse gelöscht oder geändert werden.
-
Durch die vorher beschriebene Aufteilung eines Eigenschaftssatzes
und seiner Speicherung sind die wesentlichen Voraussetzungen für das rasche Wiederauffinden
mit Hilfe einer Datenverarbeitungsanlage gegeben.
-
Es sollen jetzt nur die fixen Merkmale betrachtet werden, die alleine
eine weitere Behandlung in Richtung auf einen schnellen Suchvorgang erlauben. Diese
haben auf dem Speichermedium (z.B. Platte) folgendes Format:
F1 M11, M12, M13 ............ 141p1 |
F2 M21 o.ooosee ..... M2p2 |
F3 ................................. |
Fn ...... 0 ......... 00.00..a ...... 0. |
Dabei ist F = Eigenschaftssatznummer 1 - n n - letzter gespeicherter Eigenschaftssatz
Mik = zutreffendes fixes Merkmal, das |
sich zwischen der Größenordnung 1 - iii |
bewegt, wobei m das letzte erfaßte |
Merkmal ist |
PZ = Anzahl der Merkmale eines Eigenschafts- |
satzes, wobei Z max. m ist. |
An die Stelle des bisherigen Ordnungskriteriums f1 - fn treten nun als Sortierkriterium
die Kennziffern der fielen Merkmale. Der dazu notwendige Umsetzvorgang erstellt
die sogenannte Merkmalsebeno, die den wichtigsten Faktor für das Suchverfahren bildet.
Zu diesem Zweck wird zunächt das erste feste Merkmal *(M1) des Verzeichnisses gesetzt
und eine bestimmte Anzahl von Bitpositionen, z.B. 1 Byte, für jeden der abgespeicherten
Eigenschaftssätze freigehalten. Die in diese Bitpositionen-teingeschriebene Information
soll als Zeichen bezeichnet werden, z.B.,
M1 |
------------- |
Eigenschafts- |
satz Nr. 1 Nr. n |
Jetzt wird der Inhalt der Eigenschaftssatznummer 1 daraufhin untersucht, ob M1 enthalten
ist (zeichenweiser Vergleich). Ist M1 vorhanden, wird an der letzten Bitposition
des ersten Zeichenseine binäre "1" gesetzt, ist I71 nicht vorhanden; wird eine binäre
'#0" eingeschrieben.
-
In gleicher Weise werden sämtliche gespeicherten Eigenschaftssätze
nach M1 abgearbeitet. Als Ergebnis dieser Umgruppierung erhält man die Zeile M1
der Merkmalsebene, die aussagt, welche der abgespeicherten EigenschaftssH.tze das
Merkmal 1 enthalten.
Z. D, |
P71 1 0 0 1 ' 1 |
Eigenscha fts- |
satz Nro 1 2 3 4 n |
Diese Zeile der Merkmalsebene wird auf einem externen Speichermedium abgespeichert.
Der gleiche Vorgang wiederholt sich für die fixen P@Ierkt@ale
1,12 - Mm.
Die dabei gewonnen Zeilen 112 - Mm der Merkmalsebene werden ebenfalls abgespeichert.
Iy'ach der U«isetz plinse ergibt sich als Merkmalsebene folgende P-Iatrix:
1`I1 F1, F2, F3, F4 ........ Fn |
P422_ F1, F2 ......:............. ) |
Zeilen der |
P23 . . ... ..... ... . . . . . . . . . . . . . . ) P@terl:rna7_s- |
Mm ... . .. . . . . . . . ) ebene |
Um zu ermitteln, ob z.B. Eigenschaftssatz Nr. 170 das fixe Merkmal M20 erfüllt,
läuft folgender Suchvorgang ab: Mit Hilfe eines Zäblregisters oder durch zeichenweisen
Vergleich wird die Zeile M2_0 der Merkmalsebene aufgesucht und in den Arbeitsspeicher
der Datenverarbeitungsanlage übertragen. Ebenfalls über Zählregister oder durch
zeichemweisen Vergleich wird dann Eigenschaftssatz Nro 170 der ;eile der Merkmalsebene
aufgesucht (170. Zeichen der Zeile). Die Abfrage des letz teil Bits dieser Speicherstelle
nach "0" oder "1" ergibt die gewünschte Auskunft.
-
Ein anderes Verfahren zur Bildung der Merkmet sehene nrlieitet wie
folgt:
Alle fixen Merkmale werden vertikal in den Arbeitsspeicher
eingelesen und wieder pro Merkmal für jeden abgespeicherten Eigenschaftssatz ein
Byte (= 1 Zeichen) freigehalten.
M F1 F2 F3 ......... Fn |
001 |
002 |
003 |
004. |
m |
Während beim ersten Verfahren sämtliche Eigenschaftssätze auf ein bestimmtes Merkmai
(M1 - Mm ) untersucht werden, wird bei dieser Methode jeder Eigenschaftssatz (r9
- Fn) auf sämtliche enthaltenen Merkmale untersucht. Das heißt, für F1 wird für
jedes enthaltene Merkmal in der Tabelle unter der entsprechenden Adresse (Adresse
wiederum gleich Kennziffer des Merkmals) eine "1" an die letzte Bitsposition gesetzt.
Alle übrigen Adressen - die nicht erfüllten Merkmale - werden mit einer binären
"0" an der letzten Bitposition gekennzeichnet: Dieses Verfahren wiederholt sich
für sämtliche abgespeicherten Eigenschaftssätze. Auf diese Weise entsteht ebenfalls
eine Matrix. Diese Matrix wird horizontal, mit M1 beginnend, abgespeichert und mari
erhält die gei-jünschte Merkmalsebene. Dieses Verfahren ist jedoch. nur dann sinnvoll,
wenn die Zahl der Eigenschaftssätze und die Zahl. der fixen Merkmale so gering sind,
daß die gesamte Matrix im Arbeitsspeicher der Datenverarbeitungsanlage aufgebaut
werden kann.
M F1 F2 ............... Fn |
M3 1 0 0 |
M4 0 0 0 |
M5 1 1 0 |
m 0 1 1 |
Der Änderungsdienst läßt sich in der bereits beschriebenen Weise durchführen. Mit
der Adresse M1 - Mm können. einzelne Zeilen der Merkmalsebene angesprochen und geändert
werden. Ein bestimmter Fall einer Zeile einer Merkmalsebene wird über seine Nummer
aufgesucht. Neuzubildende Zeilen der Merkmalsebene erhalten die Adressen m + 1 u
sw .
-
Mit der Bildung,der Merkmalsebene und deren Speicherung sind alle
Voraussetzungen für das Suchverfahren gegeben. Es stehen jetzt drei Informationsarten
zur Verfügung: 1. Alle Eigenschaftssätze mit Nummern und den variablen und
den fixen Merkmalen, 2. das Verzeichnis der zugelassenen fixen Merkmale, 3. die
Nerkmalsebene.
-
Es ist zweckmäßig, diese drei Informationsarten auf einen Archivspeicher
zu übernehmen, um sie von dort bereitstellen zu können, besonders dann, wenn eine
Anlage nicht ausschließlich diesen Aufgaben zur Verfügung steht oder der Erhalt
der Informationen zusätzlich gesichert sein soll bzw. wenn die genannten Matrizen
nicht komplett im Arbeitsspeicher der Datenverarbeitungsanlage untergebracht werden
können.
-
Um benötigte Gegenstände oder Personen wiederzufinden, müssen Anfragen
gestellt werden. Anfragen bestehen aus bekannten Merkmalen.
Die
bekannten Merkmale umfassen sowohl die variablen als auch die festen Merkmale, die
mii; den in dem Verzeichnis enthaltenen Begriffen identisch sein müssen.
-
In einer Anfrage können nicht beliebig viele Merkmale enthalten sein.
Die Anzahl der möglichen Merkmale in einer Anfrage bestimmt sich aus der Anzahl
der Bitpositionen pro Eigenschaftssatz in der Merkmalsebene. Werden z.B. 6 Bit pro
Fall vorgesehen, sind somit 26 (=64) Angaben in einer Anfrage erlaubt. Jedes weitere
Merkmal .führt zu einem unkontrollierten Additionsüberlauf der zum Suchen mit fixen
Merkmalen notwendigen Addition. Diese Addition wird später beschrieben.
-
Bei einem Suchvorgang r-* nd zwei Arten von Anfragen, die sich aus
den zwei Arten von Merkmalen ergeben, zu unterscheiden, nämlich Anfragen a')* mit
variablen Merkmalen und b) mit fixen Merkmalen.
-
Anfragen mit variablen Merkmalen besitzen das Format Kennziffer/Text.
-
Hierbei werden innerhalb der gespeicherten Eigenschaftssätze mit Hilfe
der vorausstehenden Kennziffer die entsprechenden Adressen aufgesucht und der Text
zeichemueise verglichen. Wurde eine Identität festgestellt, werden die jeweiligen
Eigenschaftssätznummern und das zutreffende variable Merkmal gemeinsam gemerkt.
-
Wesentlich ist, daß nicht der gesamte Text der EigenschaftssR.tze,
sondern nur die mit Kennziffer identische Adresse in einem Eigenschaftssatz untersucht
werden muß.
-
Eine Anfrage mit fixen Merkmalen geschieht nur mit den Kennziffern
der
fixen Merkmale, z.B. 021. Die Kennziffer des festen Merkmals 021 ist einmal die
Adresse der Zeile der Merkmalsebene 021 und zum anderen hat sie die Bedeutung des
fixen Merkmals, z.B. männlich.
-
Natürlich können beide Anfragearten in einer Anfrage enthalten sein.
Als Beispiel sollen fünf fixe Merkmale zu einer Anfrage bereitstehen. Die zugeordneten
Kennziffern sollen 021, 032, 050, 160, 450 sein.
-
Nach Abschluß der Eingabe werden die Zeilen 021, 032,050, 160 und
450 der Merkmalsebene in den Arbeitsspeicher geholt und untereinander geschrieben.
-
Nachdem die hier zur Verfügung stehenden fünf Zeilen der Merkmalsebene
im Arbeitsspeicher der Datenverarbeitungsanlage sind, ist z.B. folgende Matrix gegeben
(die Belegung der Eigenschaftssätze ist willkürlich gewählt):
Merkmal Eigenschaftssatz Nr. |
1__?. ____ 3-----4---_- 2_ __ __ -n--- |
021 1 0 1 1 0 0 |
023 0 0 1 2 0 0 |
050 1 0 1 0 0 0 |
160 1 0 1 0 0 0 |
450 1 0 1 1 1 0 |
Die darin enthaltenen Aussagen über Anzahl der zutreffenden Merkmale für jeden Eigenschaftssatz
können aus dieser Matrix gewonnen werden.
-
Die fünf Zeilen der Merkmalsebene werden jetzt spaltenweise addiert,
man erhält eine Summenzeile. Ein Vorteil dieser Addition ist, daß alle Merkmale
für jeden fall ausgewertet werden. Je höher die Spaltensumme eines Eigenschaftssattes
ist,
desto größer ist die Zahl der erfüllten Merkmale. Unter den Eigenschaftssatznummern
mit den höchsten Spaltensummen dürfte demnach die richtige Person oder der richtige
Gegenstand zu suchen sein. Da aber eine endgültige Entscheidung durch eine DVA nicht
zu treffen ist, sind Alternativangaben erforderlich. Die Eigenschaftssätze, die
zwar nicht alle, aber einen Teil der Anfrage erfüllen, können mit diesem Verfahren
auch ermittelt werden. Eine endgültige Entscheidung hat dann der Anwender zu treffen.
Ihm wird nun aus der Fülle der Eigenschaftssätze der infragekommende Teil vorgelegt.
-
Die Summenzeile in dem gegebenen Beispiel lautet:
Eigenschaftssatz Nr. 1 2 3 4 5 ......., n |
4 0 5 3 1 Q |
--------------- |
Es wären also die Eigenschaftssätze 1, 3 und 4 näher zu prüfen; Eigenschaftssatz
5 könnte evtl. interessant sein. Unter den übrigen Eigenschaftssätzen ist sicher
nicht die gesuchte Person oder der gesuchte Gegenstand zu finden. Die Frage, welche
Eigenschaftssätze ausgegeben werden sollen, kann vom Anwender bestimmt werden. Ihm
stehen verschiedene Möglichkeiten zur Verfügung, die Summenzeile auszuwerten bzw.
zu beeinflussen.
-
Mit Hilfe eines Sperrvermerks können Beschränkungen in bezug auf die
Anzahl der Ausgabe von Eigenschaftssätzen vorgenommen werden. Der Sperrvermerk kann
entweder ein ausschließendes Merkmal oder ein variabel zu gestaltender Prozentsatz
der erfüllten Merkmale sein. Bei sehr allgemeinen Beschreibungen können bei der
Anfrage die ausschließenden Merkmale angegeben werden. Die Angabe dieser Merkmale
soll .
die Anzahl der zur Ausgabe anstehenden Eigenschaftssätze
Um jene reduzieren, die zwar auf die allgemeine Beschreibung zutreffen, aber
das ausschließende Merkmal enthalten und somit nicht zu den gesuchten Eigenschaftssätzen
gehören können.
-
Intern werden die Zeilen der Merkmalsebene, die als ausschließend
anzusehen sind, mit der Summenzeile verglichen. Alle Fälle der Summenzeile mit einem
Ergebnis> 0, die auch das ausschließende Merkmal erfüllen, werden dann gelöscht.
Die zweite Art des Sperrvermerkes - variabler Prozentsatz der Zahl der erfüllten
Merkmale - bietet die Möglichkeit, die Zahl der auszudruckenden Eigenschaftssätze
beliebig zu variieren. Er gewinnt besondere Bedeutung im Zusammenhang mit der weiter
unten beschriebenen Methode der Gewichtung bestimmter Merkmale.
-
Wie bei obigem Beispiel ersichtlich, gibt die Summenzeile darüber
Auskunft, wieviele der angefragten Merkmale jeder einzelne Eigenschaftssatz erfüllt.
Der Abfragende kann nun bei der Anfrage bestimmen, wieviele Merkmale bzw. wieviel.
Prozent der Merkmale erfüllt sein müssen, um einen Eigenschaftssatz zum Druck freizugeben.
Der Prozentsatz kann dabei zwischen 1 und 100 frei geiiählt werden.
-
Eine weitere Methode zur Gestaltung der Summenzeile ist die Geuichtung
bestimmter Merkmale. Einem sehr wichtigen Merkmal kommt besondere Bedeutung zu.
Bei der Erstellung der Summenzeile kann dem Rechnung getragen werden, indem das
Merkmal gewichtet wird. Die Aussagekraft dieses Merkmals wird entsprechend der Geuichtung
vervielfacht. Der gewählte Wert - der immer in einer sinnvollen Größenordnung sein
soll , z.B. von 1 bis 5 - kann bei der Anfrage hinter das erfragte Merkmal gesetzt
sein, z.B.
222/3 Kennziffer/Gevichtung, Der Wert wird bei der Addition
durch entsprechende Vervielfachung mit berücksichtigt und die Summenzeile erhöht
sich dementsprechend. Eine Grenze nach oben für die Vergabe von Gewichtungen ist
durch die Anzahl der vorhandenen Bitpositionen pro Eigenschaftssatz in der Merkmalsebene
gezogen, d.h. die Summe aus den anstehenden Anfragen und den angQgebenen Gewichtungen
darf nicht über die Summe der durch die Bitpositionen vorgeschriebenen Anfragen
steigen.
-
Wichtig ist, daß aufgri:" :- der durch das Verfahren geschaffenen
Voraussetzungen eine umfangre-.--he und übersichtliche Darstellung der gewünschten
Informationen gewährleistet ist.